H-MAES：一种用于感知干扰的海事导航的层次化规划-控制框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Ocean Engineering》：H-MAES: A hierarchical planner-controller framework for disturbance-aware maritime navigation

【字体：大中小】 时间：2026年04月03日 来源：Ocean Engineering 5.5

编辑推荐：

　　自主船舶导航的分层强化学习框架H-MAES通过整合高层子目标规划与低层自适应舵控制，结合环境干扰建模和风险意识奖励函数，有效提升了轨迹平滑性、收敛性和避碰能力。

尹向军|余巧婵|耿雄飞|岳慧慧

新加坡南洋理工大学（NTU）与新加坡经济发展委员会（EDB）集成电路与系统研究中心，新加坡

摘要

在复杂的海洋环境中实现安全高效的自主导航仍然具有挑战性，这主要是由于船舶动力学的非线性、环境干扰以及需要具备稳定性意识的决策制定。为了解决这些问题，我们提出了H-MAES，这是一个基于物理知识的层次化强化学习框架，它将高级子目标规划与低级舵控制相结合。全局规划器通过语义场景抽象生成战略航点，而局部控制器在受干扰的Nomoto Plus动力学下优化舵指令。我们进一步引入了一种风险意识奖励设计，该设计会对过度的偏航变化、不安全的接近距离和异常的转向行为进行惩罚，从而鼓励更平稳和安全的导航。在考虑干扰的虚拟海洋环境中的实验表明，与对比基线相比，H-MAES显著提高了轨迹的平滑度、收敛行为和碰撞避免能力。

引言

海洋导航是全球贸易和经济繁荣的基石，它支撑着全球货物和资源的有效运输（Thyri和Breivik，2022年）。然而，安全性和运营效率仍然面临重大挑战。根据欧洲海事安全局（Committee等人，2025年）的数据，2014年至2022年间超过80.7%的海上事故直接或间接归因于人为错误或在动态环境条件下的不当决策（Gasparotti，2024年）。这些事故通常涉及舵控制失误、导航判断错误以及对风、波浪和水流干扰的响应不足，凸显了传统以人为中心的海洋导航系统的关键脆弱性（Alamoush和?l?er，2025年）。

自主海洋导航的出现旨在通过将实时决策权委托给能够适应复杂且不可预测的海洋环境的智能代理来减少人为错误（Korupoju等人，2025年）。尽管取得了显著进展，自主导航系统仍面临重大障碍，包括船舶动力学的非线性、环境干扰、在不确定性下的实时决策制定以及保持稳定控制（Ahmed等人，2024年）。传统的启发式和基于规则的路径规划方法，如COLREGs集成模型（Zaccone，2021年）和进化算法（Zhang等人，2023年），通常在动态变化的海洋条件下适应性有限。同样，传统的强化学习（RL）方法也常常因为缺乏结构化的层次化控制和有效整合环境动力学而表现不佳，导致收敛稳定性差和导航行为不佳（Zhu和Hayashibe，2022年）。

深度强化学习（DRL）的最新进展为海洋导航开辟了新的可能性。代理可以通过与环境的交互式探索和反馈获得稳健的策略（Wang等人，2024年；Zhao等人，2024年）。然而，许多DRL框架并未结合层次化规划。这种缺失削弱了高级路线决策与低级执行之间的联系，也使得长期信用分配变得更加困难。奖励设计通常缺乏明确的稳定性约束和风险意识。在现实干扰下，这些缺陷可能导致控制振荡、安全裕度降低，最终产生不安全的轨迹。

为了解决这些问题，我们提出了H-MAES，这是一个用于在环境干扰下进行自主海洋导航的层次化强化学习框架。该框架将高级全局子目标规划与低级自适应舵控制结合在一个统一的学习架构中。具体来说，全局规划器使用近端策略优化（PPO）选择长期指导的中间航点，而局部舵控制器使用双深度Q网络（DDQN）结合Nomoto Plus动力学，在风、水流和波浪效应下生成感知干扰的转向动作。与扁平策略设计相比，这种层次化分解改善了战略路线规划与局部执行之间的联系，而感知干扰的动力学和风险意识奖励公式为在模拟环境中学习稳定和注重安全的行为提供了更直接的基础。

本研究的主要贡献如下：

我们开发了一个层次化强化学习框架，将全局子目标规划与自适应舵控制相结合，以提高长期路线规划与局部转向控制之间的协调性。
我们在训练和评估中结合了感知干扰的Nomoto Plus动力学，使代理能够适应模拟中的随机环境条件。
我们设计了一种风险意识奖励函数，对过度偏航变化、不安全的接近距离和突然的转向行为进行惩罚，从而鼓励更平稳的轨迹和更安全的控制响应。
我们进行了全面的基于模拟的实验，与对比的强化学习和路径规划基线相比，显示出轨迹平滑度、收敛行为和碰撞避免能力的持续改进。

本文的其余部分组织如下：第2节回顾了有关自主海洋导航的相关文献。第3节详细介绍了H-MAES的方法论框架，包括层次化策略设计、干扰建模和奖励构建。第4节提出了实验验证和比较分析。最后，第5节概述了结论和未来研究的方向。

问题陈述

在受限且易受干扰的海洋环境中，自主水面船舶（ASV）的导航面临一系列严峻的挑战。除了确保全局路径效率和碰撞避免外，控制器还必须在风、水流和波浪等显著的环境不确定性下产生局部稳定的操纵动作。这些扰动与船舶的舵动力学非线性相互作用，常常导致过度修正、轨迹漂移或

实验参数配置

所有实验使用静态通道几何形状，但环境场是随时间变化的。除非另有说明，我们采用以下参数：

Δ t = 0.10 s

Δ T = 0.50 s

, 成功半径5米，碰撞阈值1.5米，舵限制为±0.61弧度，每步速率限制为0.087弧度，以及150秒的剧集超时时间。干扰是在线演变的，这使得任务变得非静态，需要控制器具备预测性和反应性决策能力。所有报告的数字都是基于五个随机种子的平均值，标准差为95%

结论

本研究提出了H-MAES，这是一个结合了路线规划、操纵优化和控制稳定的层次化强化学习框架，用于自主海洋导航。在本研究中考虑的模拟环境中，H-MAES显示出更短的路线、更少的控制动作以及相比基线更好的转向稳定性。结果还表明，所提出的层次化设计可以提高安全意识决策

CRediT作者贡献声明

尹向军：撰写 – 审稿与编辑，撰写 – 原稿，可视化，方法论。余巧婵：研究，资金获取。耿雄飞：研究，资金获取，形式分析。岳慧慧：监督，软件，方法论，数据管理。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

相关工作

问题陈述

实验参数配置

结论

CRediT作者贡献声明

利益冲突声明

热点排行