面向救灾行动的优先级感知多跑道无人机排序：带运行约束下涌现跑道专用化(Emerent Runway Specialisation)的强化学习方法

《Aerospace》：Priority-Aware Multi-Runway UAV Sequencing for Disaster Relief Operations: Reinforcement Learning with Emergent Runway Specialisation Under Operational Constraints

【字体：大中小】 时间：2026年06月11日 来源：Aerospace 2.2

编辑推荐：

　　摘要：临时救灾机场的多跑道无人飞行器(UAV/无人机)排序在类别非对称尾流湍流(Wake Turbulence)约束下构成一个优先级异构调度问题。研究人员将其建模为带优先级加权奖励的马尔可夫决策过程(MDP, Markov Decision Process)—

摘要：临时救灾机场的多跑道无人飞行器(UAV/无人机)排序在类别非对称尾流湍流(Wake Turbulence)约束下构成一个优先级异构调度问题。研究人员将其建模为带优先级加权奖励的马尔可夫决策过程(MDP, Markov Decision Process)——采用极简奖励设计（仅对完成降落的机类赋予每步类别权重，不含奖励塑形或手工安全逻辑），并扩展引入每架UAV的运行截止时间（编码途中续航消耗）及每跑道队列容量约束以产生非平凡的动作掩码(Action Mask)。研究人员训练近端策略优化(PPO, Proximal Policy Optimisation)智能体，并与六种基线（含确定性优化Joint-LA-1、随机前瞻Stochastic-LA及在线树搜索MCTS）进行比对。在100组配对评估回合中，PPO累积加权着陆价值与运营标准Priority-FCFS相差在2.7%以内（p = 0.124，无显著性）；最强非学习基线Joint-LA-1较PPO高出3.2%（p = 0.043）。尽管聚合吞吐量近乎一致，PPO自主发展出跑道专用化模式——将60%高优先级降落集中于单一跑道，同时将93%紧急到达导向其余跑道——该行为完全从奖励信号中涌现。较宽松截止时间下PPO与PFCFS差距缩窄至?0.5%；去除非对称尾流结构的尾流对称性消融实验显示PPO较Priority-FCFS高出46.5%。结果表明优先级感知的容量预留(Capacity Reservation)可无需嵌入领域知识而从奖励中涌现，且紧运行约束下简单启发式近最优——这对救灾航空自主调度具直接启示。

论文解读：Priority-Aware Multi-Runway UAV Sequencing for Disaster Relief Operations——基于PPO的救灾无人机多跑道优先级感知排序及涌现跑道专用化研究

研究背景与意义

灾后无人飞行器（UAV, Unmanned Aerial Vehicle）在临时救灾机场执行物流补给、人员运输及伤员后送（Casualty Evacuation, CASEVAC），其交通流具极端优先级异构性（普通补给:高优先级混装:紧急伤员后送权重比达1:5:100）、随机泊松到达及每机有限续航（转化为硬性运行截止时间Deadline），且临时跑道具有限队列容量与类别非对称尾流间隔（Wake Separation，较重机型尾流对较轻机型间隔要求更大）。传统民航终端区排序研究假定已知航班时刻表与均质延迟最小化目标，不适用于此场景；既有救灾航空物流文献关注车队规模与路径规划，未涉及带类别非对称尾流的多跑道在线排序。因此研究人员开展本研究，将问题建模为带极简优先级加权奖励的马尔可夫决策过程（MDP），用带容量约束动作掩码（Action Mask）的近端策略优化（PPO, Proximal Policy Optimisation）训练调度策略，并系统比对六类基线，探究强化学习（RL, Reinforcement Learning）能否仅从奖励信号涌现有效的优先级感知容量预留与跑道专用化行为，以及其在紧/松截止时间与结构扰动下的鲁棒性。本文发表于MDPI期刊《Aerospace》。

主要关键技术方法

研究人员构建含R=3条平行跑道、泊松到达率λ=0.7架/模拟秒、三类UAV（Normal 60%、High 25%、Emergency 15%）及类别非对称尾流矩阵W（基于ICAO Doc 4444经10倍时间压缩）的离散事件仿真环境。每架UAV赋予基于机类基础续航（N=80 s, H=55 s, E=30 s）加±20%均匀扰动的运行截止时间D_u，超时未着陆记为截止时间违规坠机（Deadline Violation Crash）。MDP状态含当前到达机特征、三条跑道下一空闲时间/上次降落类别/队列长度（容量Q_max=3）、下N_preview=10个未来到达预览及全局标量；动作为选择分配当前UAV至某跑道，由队列满溢产生非平凡二值动作掩码屏蔽不可行跑道；奖励为每步已完成降落UAV的类别权重增量ΔΣw_c·L_u(t)，回合终止时对未着陆紧急机扣减10.0分。PPO采用MaskablePPO（stable-baselines3-contrib）双MLP（128,128）Actor-Critic架构，经200万环境步（约2万回合）、10个独立随机种子训练，最佳检查点用于评估。基线包括Random、WakeGreedy、Priority-FCFS（选最早可接受跑道）、Joint-LA-1（两步步联合枚举）、Stochastic-LA（蒙特卡洛采样未来到达）、MCTS（100次UCB1迭代深度5）及对照Joint-LA-2（三步枚举）。评估采用100组预留配对到达时刻表（种子500000–500099）的被试内配对设计，统计比对累积运行价值G与紧急机未着陆数。

研究结果

5.1. Experimental Protocol（实验协议）

研究人员采用固定100组配对到达时刻表的留出的(within-subject paired)评估协议，所有策略在同一组时刻表上测试以确保公平比对。

5.2. Main Result（主要结果）

PPO取得回合均值奖励741.7±177.7，Priority-FCFS为762.5±179.2，Joint-LA-1为766.5±180.1。配对t检验显示PPO与Priority-FCFS差距?2.73%（p=0.124，无统计学显著性），与Joint-LA-1差距?3.24%（p=0.043，显著）。PPO在总着陆架数略少情况下匹配强基线性能，体现优先级加权目标下选择性牺牲低权重吞吐以保高权重紧急机；优化类基线（Joint-LA-1除外）均未显著超越Priority-FCFS，更深确定性前瞻无单调改进。

5.3. Sensitivity to Operational Deadline Tightness（运行截止时间严苛度敏感性）

比较紧截止（N=80 s, H=55 s, E=30 s）与较宽松截止（N=120 s, H=80 s, E=35 s）场景，PPO–PFCFS相对差距从?2.7%缩窄至?0.5%，说明学习调度之价值取决于系统时间松弛度——紧约束下"尽早降落"启发式近优，松弛度增大时刻意容量预留方显现优势。

5.4. Per-Class Throughput and the Emergency Reliability Trade-Off（分级别吞吐量与紧急可靠性权衡）

各类别吞吐PPO与Priority-FCFS近似，但跑道×级别分配矩阵显示PPO将60% High级降落集中于R2跑道，93% Emergency级分配至R0与R1（仅7%至R2），而各启发式基线近均匀分配——证实跑道专用化(Runway Specialisation)为极简奖励下稳健涌现性质，不依赖特定环境配置。

5.5. Permutation Invariance and Crash Decomposition（置换不变性与坠机分解）

对三条跑道索引全面置换重评，PPO奖励波动<0.05%，证明策略依据跑道状态（下一空闲时刻、末降落类别、队列长）而非固定索引决策。所有紧急机坠机均为可操作但未被及时安排之截止时间违规，约19架/回合系物理吞吐上限致本质不可降落。

5.6. Training Dynamics and Multi-Seed Robustness（训练动态与多种子鲁棒性）

十种子训练曲线显示最佳检查点均值200k步内逼近Priority-FCFS参考线，终态近似KL散度、裁剪比例与解释方差(Explained Variance>0.78)均处健康区间，证实收敛稳定。

5.7. Wake-Scaling Robustness（尾流缩放鲁棒性）

对尾流矩阵施统一缩放因子α∈[0.5,2.0]零样本评估，PPO与PFCFS相对差距保持在[?3.6%,?2.7%]，因均匀缩放不改变类别间尾流比与优先级–尾流非对称交互结构，结论对10倍压缩假设具鲁棒性。

5.8. Ablation Across Nine Environment Variants（九环境变体消融）

变更跑道数（R=2,4）、到达率（λ=0.5,0.9）、紧急级占比（10%,20%）、尾流结构（对称W_ij=7.0）及无预览，最关键发现：对称尾流（去除Priority-FCFS依赖的非对称结构）时PPO较PFCFS优46.5%，表明学习策略不复制启发式而是具质的差异且适应结构变化；两跑道变体PPO亦微优于PFCFS(+0.2%)。

讨论与结论总结

讨论指出：(1) PPO匹配Priority-FCFS且无手工规则即涌现跑道专用化与隐式容量预留，说明极简优先级加权MDP可诱导符合救灾运营目标之行为；(2) 静态K步联合优化无法表达"为未知未来紧急机预留容量"之期望价值——属超越有限前瞻窗之贝尔曼残差最小化问题，仅RL值函数V(s)能积分未来紧急分布，此解释Joint-LA-2、Stochastic-LA及MCTS未超越启发式之原因；(3) 紧运行约束下简单启发近最优，松约束与结构扰动（对称尾流）下RL优势显现；(4) 局限含固定到达率/级别比/三跑道/同类别内同质机及未建模复飞、异质占用时、通信延迟等，但每UAV截止时间机制可作上游模块标量接口吸纳此类因素。

原文结论翻译：研究人员提出并验证了一种在极端优先级异质与运行约束（每机续航截止时间、有限跑道队列容量、类别非对称尾流间隔）下救灾多跑道UAV排序的深度强化学习方法。PPO智能体经极简奖励与容量约束动作掩码训练，累积加权着陆价值与Priority-FCFS相差在2.7%以内（p=0.124，无显著性）；Joint-LA-1较PPO优3.2%（p=0.043）。该策略无需手工优先级规则、容量预留 heuristic 或安全约束，排序策略（含涌现跑道专用化——60%高优先级降落集中于单跑道R2，93%紧急到达分配至另两条跑道R0/R1）完全从奖励信号习得，且经跑道标签置换检验稳健。研究表明优先级感知容量预留可自极简奖励设计涌现；紧运行约束下简单启发式（Priority-FCFS）近最优，学习调度之价值受系统时间松弛度调制；较深确定性前瞻、随机优化及在线树搜索均未弥合与学习策略之差距，原因为容量预留是对未来紧急机分布之期望而非有限前瞻窗属性——此系RL-for-Operations文献之理论贡献。后续工作将扩展至异质载具动力学下每UAV截止时间建模、城市空中交通(UAM, Urban Air Mobility)垂直起降场调度迁移及演化 fleet 组成下持续学习变体。

热点排行