面向城市感知中多无人机动态协同调度的分层强化学习方法——一种分层强化学习(Hierarchical Reinforcement Learning, HRL)方案

《Internet of Things》：Towards Dynamic Cooperative Scheduling in Multi-UAV Urban Sensing: A Hierarchical Reinforcement Learning Approach

【字体：大中小】 时间：2026年06月06日 来源：Internet of Things 7.6

编辑推荐：

　　摘要—多无人机(Multi-UAV)系统日益广泛地部署于交通监视与环境监测等城市感知(Urban Sensing)场景中。然而，随着任务规模扩大与环境动态性增强，现有调度器在面对语义模糊的任务、时序冲突及快速膨胀的决策空间时，难以兼顾全局效率与局部实时响应能力

摘要—多无人机(Multi-UAV)系统日益广泛地部署于交通监视与环境监测等城市感知(Urban Sensing)场景中。然而，随着任务规模扩大与环境动态性增强，现有调度器在面对语义模糊的任务、时序冲突及快速膨胀的决策空间时，难以兼顾全局效率与局部实时响应能力。为此，研究人员提出HRL-DCSF，一种由分层强化学习(Hierarchical Reinforcement Learning, HRL)驱动的动态协同调度框架(Dynamic Cooperative Scheduling Framework, DCSF)，实现从自然语言风格指令到多无人机执行的端到端优化。HRL-DCSF采用统一的任务分解(Task Decomposition)—任务分配(Task Allocation)—任务执行(Task Execution)三层架构，将整个流程建模为分层马尔可夫决策过程(Hierarchical Markov Decision Process, HiMDP)：分配层建模为半马尔可夫决策过程(Semi-Markov Decision Process, SMDP)以支持时序扩展规划，执行层建模为约束马尔可夫决策过程(Constrained Markov Decision Process, CMDP)以显式纳入能量、通信及存储约束。为增强动态环境下的自适应性，HRL-DCSF进一步集成动态簇形成(Dynamic Cluster-Formation)机制、周期性负载再均衡(Periodic Load Rebalancing)及交替分层训练(Alternating Hierarchical Training, AHT)算法以实现跨层策略同步保障稳定学习。实验结果表明，在4架无人机、80个任务的小规模收敛测试中，相较DL-DRL，收敛总任务价值约提升46%；在6架无人机、N=1000任务的大规模多基线研究中，HRL-DCSF平均资源利用率达84.0%。

论文解读：《Towards Dynamic Cooperative Scheduling in Multi-UAV Urban Sensing: A Hierarchical Reinforcement Learning Approach》（发表于《Internet of Things》）

一、研究背景与问题提出

随着边缘计算与无人机（Unmanned Aerial Vehicle, UAV）技术的发展，多无人机系统被广泛应用于城市交通监测、环境监测、灾害响应及基础设施巡检等城市感知（Urban Sensing）场景。相比单无人机，多无人机系统具备更广的空间覆盖、更强的环境适应性与更高的任务并行度。然而，动态协同调度仍是实际部署中的根本瓶颈，主要体现在三方面：其一，任务输入常表现为操作员发出的自然语言风格指令（Natural-Language-Style Directives），含语义模糊、任务边界不清、嵌套感知目标及隐式时序约束，传统基于模板或规则的解析方法难以处理；其二，调度受环境与资源动态影响显著——无人机能量（Energy）、存储空间（Storage）及通信带宽（Bandwidth）随时间演化，任务随机到达，需在时效性、协作效率与资源消耗间实时权衡；其三，联合任务指派与动作执行的空间随无人机数与任务规模呈指数增长，构成NP-hard的高维非凸优化问题，离线启发式与手工规则在动态非平稳条件下泛化性差。现有单层强化学习（Reinforcement Learning, RL）面临动作空间爆炸与收敛不稳定问题，而已有分层强化学习（Hierarchical Reinforcement Learning, HRL）方法多假设任务已预结构化、缺乏自然语言理解、层级间仅为单向自顶向下映射且无跨层反馈同步，亦未系统地将无人机簇（Cluster）形成机制融入分层决策。因此，实现端到端、语义感知、资源受限且协作驱动的调度仍是开放难题。针对上述问题，Jiao Mengge、Wei Kaimin等研究人员提出了基于HRL的动态协同调度框架HRL-DCSF（Hierarchical-Reinforcement-Learning-based Dynamic Cooperative Scheduling Framework）。

二、主要关键技术方法

研究人员设计了三层"任务分解—任务分配—任务执行"端到端流水线：①规则驱动的任务分解层通过关键词提取、规则校验、时序拆分与空间聚合，将自然语言指令转为无冲突标准化任务矩阵；②分配层建模为半马尔可夫决策过程（Semi-Markov Decision Process, SMDP）进行任务—UAV匹配及动态簇形成，执行层建模为约束马尔可夫决策过程（Constrained Markov Decision Process, CMDP）纳入能量、存储与通信约束，整体构成异构分层马尔可夫决策过程（Hierarchical Markov Decision Process, HiMDP）；③引入动态协作与周期性任务迁移（Task Migration）实现在线负载再均衡；④提出交替分层训练（Alternating Hierarchical Training, AHT）算法，通过双向跨层参数投影同步高低层策略以提升收敛稳定性。仿真实验设置目标区域内均匀分布的四种传感器（交通、温度、空气质量、噪声），数据量2.0~7.0 MB，任务价值0.1~1.0随机采样，无人机初始位于基站。

三、研究结果

System model（系统模型）

研究人员定义监控区域E?R²上的多无人机系统闭环工作流：任务生成→任务调度→协同执行→数据采集→数据卸载，系统含UAV、静态传感节点与边缘服务器，并给出关键符号定义与约束条件（能量、存储、通信约束及任务时效窗）。

Overview and design philosophy（框架概览与设计思想）

研究人员提出HRL-DCSF三层模块：任务分解层将自然语言指令转为结构化任务；任务分配层基于SMDP做全局匹配与簇形成；任务执行层基于CMDP做资源感知飞控与采集动作。通过跨层状态投影与反馈保证全局—局部一致性，区别于使用同构MDP的既有HRL方案。

Setup（实验设置）

在标准仿真环境中布设四类传感器，任务价值随机采样以体现优先级差异，设定无人机起始位置、任务数据量均匀分布及UAV资源上限，构建小规模（4 UAV / 80 Task）与大规模（6 UAV / N=1000 Task）两组实验场景，对比DL-DRL、MADDPG、Greedy及GA等基线。

Conclusion（结论汇总——译自原文结论段）

研究人员提出一种基于分层强化学习的多无人机动态协同调度框架（HRL-DCSF）。HRL-DCSF通过任务分解与SMDP驱动的分配层及CMDP基的执行层相结合，在高维决策、资源受限执行与动态协作方面提供有效解决方案；框架保持了全局规划与局部执行的清晰分离，集成了动态簇形成与周期负载再均衡，并通过交替分层训练实现稳定收敛。实验表明该框架在收敛总任务价值与平均资源利用率上优于对比基线，适用于大规模城市感知场景下的多无人机协同调度。

四、讨论与意义

HRL-DCSF的核心创新在于：首次在统一HiMDP框架下耦合SMDP（分配层，捕捉时序扩展决策与簇形成）与CMDP（执行层，显式编码多维资源约束），弥补了现有HRL方法忽略自然语言指令解析与跨层双向同步的不足；引入动态簇形成+周期性任务迁移实现运行时负载均衡；AHT算法通过双向参数投影克服传统单向自上而下训练的不稳定性。小规模实验中收敛总任务价值较DL-DRL提高约46%，大规模N=1000场景下平均资源利用率达84.0%，目标函数值与利用率均优于所列基线。该工作为语义感知、资源受限的多无人机城市感知调度提供了端到端的分层强化学习解决思路，对智慧城市场景中大规模无人机协同任务规划具有重要参考价值。未来研究方向包括更复杂城市遮挡环境下的状态表征及真实硬件在环验证。

热点排行