一种用于舰载直升机着舰控制的残差PPO方法

《Aerospace》:A Residual PPO Method for Shipboard Helicopter Landing Control

【字体: 时间:2026年06月10日 来源:Aerospace 2.2

编辑推荐:

  舰载直升机在近甲板区域着舰需要在显著的模型不确定性和环境扰动下保持稳定的姿态调节和高精度甲板相对运动控制,在这些条件下,传统的基于模型的控制方法可能会性能下降或变得过于保守。本文提出了一种面向任务的学习增强控制算法,用于舰船相对近甲板悬停和着舰,通过将基于模型

  
舰载直升机在近甲板区域着舰需要在显著的模型不确定性和环境扰动下保持稳定的姿态调节和高精度甲板相对运动控制,在这些条件下,传统的基于模型的控制方法可能会性能下降或变得过于保守。本文提出了一种面向任务的学习增强控制算法,用于舰船相对近甲板悬停和着舰,通过将基于模型的基线控制器与残差强化学习(reinforcement learning)集成在一个甲板相对闭环框架中。算法贡献在于甲板相对基线-残差控制架构:一个拆分通道的增量非线性动态逆(INDI)外环和一个降阶动态逆(DI)内环提供名义基线路径,而一个有界残差近端策略优化(PPO)策略在相同的物理外环指令通道中提供补偿,以抑制未建模非线性和时变扰动。仿真结果表明,残差PPO相对于基线控制器和纯PPO提高了悬停鲁棒性和着舰性能。在大约20-30%的残差权重(residual authority)的条件下,它在测试的两个下降着舰场景中均实现了90.0%的期望着舰率(Desired landing rates)。
舰载直升机在近甲板区域着舰是海上侦察、搜救和运输任务中的关键环节,其安全性与效率高度依赖于在恶劣海况下实现可靠的甲板相对定位与着陆。然而,这一过程面临三重耦合挑战:首先,舰船运动由风浪引起,导致甲板持续平移和旋转,直升机需在动态甲板相对坐标系中保持稳定;其次,舰船上层建筑和甲板几何形状引发的空气尾流(airwake)以及近地效应产生强烈非定常、空间非均匀的流场,加剧气动失配与控制扰动;最后,狭窄甲板环境对位置、速度和姿态控制精度提出严苛要求,而高频率气动扰动、执行器饱和与有限控制权使得精确平滑控制难以同时实现。传统基于模型的控制器(如线性二次型调节器、模型预测控制等)虽提供了清晰的工程结构,但其性能高度依赖模型保真度、扰动表征和在线计算能力,在非定常近甲板环境下易出现性能下降或过于保守的问题。针对这些不足,研究人员提出一种任务导向、学习增强的残差控制算法,将基于模型的基线控制器与残差强化学习相结合,发表在《Aerospace》上。该研究构建了甲板相对基线-残差控制架构:拆分通道的增量非线性动态逆(INDI)外环与降阶动态逆(DI)内环组成名义基线路径,而有界残差近端策略优化(PPO)策略在同一外环指令通道中提供补偿,以抑制未建模非线性和时变扰动。仿真结果表明,该残差PPO方法在强扰动悬停和着舰场景中显著提升了鲁棒性和着陆性能,相比基线控制器和纯PPO实现了更高的期望着舰率,验证了残差学习在增强模型控制方面的有效性。

研究人员为开展研究采用了以下关键技术方法:构建了甲板相对马尔可夫决策过程(MDP),将追踪参考、状态变量、奖励和终端指标均相对移动甲板定义;设计拆分通道INDI外环与降阶DI内环作为名义基线路径;基于有界残差PPO策略在相同外环通道中输出补偿指令,残差权重设定为名义外环权限的20-30%;采用控制等效湍流输入(CETI)随机成形滤波器模拟近甲板空气尾流扰动;引入经典Cheeseman-Bennett模型近似地面效应;使用多正弦叠加模型生成舰船垂荡、纵摇和横摇运动。这些方法在仿真框架中集成,无需样本队列来源。

**4.1 仿真设置与指标**:通过设定ADS-33E-PRF Cargo/Utility类任务要素(MTE)的期望(Desired)与可接受(Adequate)性能包络作为悬停评判基准,并定义成功保持指标。利用500次随机化蒙特卡洛试验评估控制器在固定风向(WOD)条件下的鲁棒性。结果表明,在0° WOD时,残差PPO的期望与可接受悬停率分别达78.6%和95.4%,高于基线控制器(71.2%和89.0%)和纯PPO(57.6%和83.4%),且中位终端位置误差(0.241 m)和95百分位位置误差(1.227 m)均最低。

**4.2 代表性甲板相对响应历史**:在代表性扰动条件下对比三种控制器(纯PPO、基线、残差PPO)的甲板相对飞行状态响应(包括相对高度、高度误差、攻角、速度、俯仰角及俯仰率)。残差PPO表现出更小的振荡、更弱的超调和更快的误差收敛,表明其对近甲板扰动的补偿效果优于基线和纯PPO。

**4.3 蒙特卡洛与WOD鲁棒性评估**:通过500次随机试验和多WOD(0°、45°、90°)扫描评估控制器的风向敏感性。残差PPO在所有WOD设置下维持84.8-86.0%期望率、95.6-96.6%可接受率和0.246-0.263 m的XYZ均方根误差,而纯PPO在非训练风向(45°和90°)下期望率骤降至22.4%和18.6%。这表明残差学习作为有界补偿器,优于纯学习路径的泛化性。

**4.4 下降着舰强扰动条件**:设置原始扰动和移动甲板两种下降着舰场景,对比残差PPO、纯PPO、纯INDI、SHMPC及DOB/CTSMC等方法。在原始场景中,残差PPO达到90.0%期望率与100%可接受率,其他结构基线控制器期望率约67-72%;在移动甲板场景中,纯PPO期望率降至25.0%,可接受率70.0%,而残差PPO仍保持90.0%期望率与98.3%可接受率,比结构化基线提高21.7-26.7个百分点,比纯PPO提高65个百分点。配对统计检验(McNemar检验和配对分数检验)证实残差PPO在所有比较中具有显著优势。

总结讨论部分,研究人员指出了本研究的局限性:采用简化模型假设,包括准稳态地面效应校正、解析多正弦甲板运动模型和CETI气动代理模型,无法完全代表真实复杂操作场景;下降着舰试验未详细建模触地接触动力学、起落架相互作用、甲板约束及人机模式切换等。未来工作应结合更高保真度的空气尾流、动态入流、倾斜与移动地面、触地接触模型,以及更广海况、阵风、甲板运动、分布外气流和执行器失效等场景,以验证稳定裕度、失效模式分类、紧急逻辑有效性和残差权重敏感性。

翻译研究结论部分:研究人员开发了一种甲板相对基线-残差控制器,用于舰载直升机近甲板悬停和着舰。名义路径结合了拆分通道INDI外环与降阶DI内环,而有界残差PPO策略在相同物理外环指令通道中作用,残差权重约为名义权限的20-30%。主要贡献在于移动甲板基线-残差控制架构:它保留了可解释的稳定路径,并利用学习作为对扰动驱动失配的有界补偿。仿真结果显示在测试的强扰动包络内有一致改善。在0°固定WOD悬停蒙特卡洛试验中,残差PPO在500次试验中满足期望标准393次(78.6%),满足可接受标准477次(95.4%),成功保持率96.6%,中位终端位置误差0.241 m,95百分位位置误差1.227 m。在0°、45°和90° WOD扫描中,它保持84.8-86.0%期望率、95.6-96.6%可接受率、96.2-97.0%成功率以及0.246-0.263 m的XYZ RMS误差。在两个60配对下降着舰场景中,它均在两个场景达到90.0%期望着舰率,可接受率达100.0%和98.3%,并在移动甲板场景中将期望率比结构化基线提高18.3-26.7个百分点,比纯PPO提高65个百分点。这些发现支持了所提出的残差控制公式在所模拟包络内的有效性,而更广泛的海况、触地/接触动力学、硬件约束和形式化安全属性仍需更高保真度和实验验证。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号