基于深度强化学习的快速可达域生成方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

基于深度强化学习的快速可达域生成方法

《Engineering Applications of Artificial Intelligence》：A rapid reachable domain generation method based on deep reinforcement learning

【字体：大中小】 时间：2026年05月26日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　为应对高超声速飞行器可达域计算中计算复杂度高和实时性差这两个关键挑战，本文提出一种新颖的端到端深度强化学习（Deep Reinforcement Learning, DRL）框架，通过模拟最优控制变量行为实现可达域生成。为提高训练效率和边界覆盖度，研究人员沿最

为应对高超声速飞行器可达域计算中计算复杂度高和实时性差这两个关键挑战，本文提出一种新颖的端到端深度强化学习（Deep Reinforcement Learning, DRL）框架，通过模拟最优控制变量行为实现可达域生成。为提高训练效率和边界覆盖度，研究人员沿最大航程方向将可达域划分为两个子问题，并分别由专用智能体处理。该方法建立在软演员-评论家算法（Soft Actor-Critic, SAC）基础之上，采用集成终端能量、飞行高度、航向角、倾侧角和时间惩罚的多目标奖励函数。该设计使智能体能够直接学习近最优的状态到控制策略，从而实现轨迹簇的端到端生成，并对真实可达域边界进行高精度逼近。仿真结果表明，训练后的智能体能够在多样飞行条件下（包括不同半球和飞行中状态）快速预测可达域，并与高斯伪谱法（Gauss pseudospectral method）所得解表现出高保真一致性。此外，该方法展现出泛化能力和计算稳定性，为高超声速飞行器实时轨迹规划与自主决策提供了一种可行且有效的解决方案。

该文发表于《Engineering Applications of Artificial Intelligence》，聚焦高超声速飞行器再入飞行过程中可达域边界的快速生成问题。可达域是指飞行器在当前状态和约束条件下能够到达的全部终端地面位置集合，是衡量飞行器机动能力与任务适应性的关键指标，也是在线决策、轨迹规划和制导控制的重要基础。现有可达域求解方法主要包括基于轨迹优化的方法与基于参考剖面的方法。前者依托最优控制理论和数值优化框架，如高斯伪谱法与凸优化方法，虽然具有较高精度，但通常需要反复迭代求解，计算负担较重，难以满足在线应用对实时性的要求；后者通过预定义飞行剖面快速估计边界，虽然效率较高，但精度与最优性缺乏严格保证，在复杂动态环境中的适用性有限。近年来，智能方法尝试弥合精度与效率之间的矛盾，但混合式智能优化方法仍未摆脱底层迭代求解器的约束，而监督学习（Supervised Learning, SL）方法高度依赖离线数据集覆盖范围，对未见飞行状态的泛化能力不足。因此，研究人员开展本研究，旨在构建一种既摆脱传统迭代优化计算瓶颈、又能避免纯数据驱动回归模型泛化受限的新型方法，以实现任意初始状态下可达域边界的快速而准确生成。

围绕这一目标，研究人员将高超声速飞行器可达域生成问题重构为深度强化学习（Deep Reinforcement Learning, DRL）框架下的边界探索任务，而非传统意义上的点对点轨迹优化任务。与既有工作主要针对特定任务目标学习单条可行轨迹不同，本文关注的是“点到域”的边界表征问题，即学习一组多样化控制策略，使飞行器在所有可行方向上逼近机动能力极限，从而构成可达域边界。为适应这一问题特征，研究人员选用软演员-评论家算法（Soft Actor-Critic, SAC），利用其最大熵（maximum entropy）机制增强探索能力，避免策略过早收敛到局部模式，并提升对多模态控制行为的学习能力。论文的核心创新包括三方面：其一，提出端到端可达域生成框架，以整个可达域边界作为学习目标；其二，设计面向边界探索的多目标奖励函数，并利用初始航向附近可达域的近似物理对称性构建双智能体架构，将任务分解为正倾侧角与负倾侧角两个子问题；其三，验证了该方法在未见飞行工况下的泛化能力，能够在不同半球和轨迹中间状态下保持较高精度。

方法上，研究人员首先建立高超声速再入飞行器动力学模型。地球被建模为扁球体（oblate spheroid），状态变量包括地心距r、经度λ、地心纬度?、速度V、航迹角θ和航向方位角ψ，并给出相应运动方程，以刻画升力、阻力、重力项及地球非球形摄动等因素对飞行状态演化的影响。在此基础上，论文构造基于强化学习的可达域计算方法，将终端地面位置集合定义为在动态约束和预设终端能量条件下可实现的全部经纬度终点。研究人员将可达域沿最大航程方向划分为左右两个子域，由两个专门智能体分别学习。这样的分解减少了单一策略同时覆盖全边界时面临的复杂性，并有利于提升训练效率与边界覆盖完整性。奖励函数综合考虑终端能量、飞行高度、航向角、倾侧角和时间惩罚，从而将边界逼近、多方向探索与飞行可行性统一纳入策略学习目标之中。通过这一设计，智能体不再依赖预生成样本数据做静态映射，而是在与环境交互过程中学习从状态到控制的近最优策略，直接输出能够形成边界轨迹簇的控制行为。

用于开展研究的主要关键技术方法包括：建立高超声速再入飞行动力学模型与极点变换坐标系；将可达域生成建模为马尔可夫决策过程（MDP）；采用软演员-评论家算法（SAC）进行端到端策略学习；设计融合终端能量、高度、航向角、倾侧角和时间项的多目标奖励函数；依据最大航程方向和倾侧角符号构建双智能体训练架构；以高斯伪谱法作为基准解对生成结果进行对比验证。本文主要基于仿真场景开展研究，原文未提供生物医学意义上的样本队列来源。

研究结果部分，论文首先在“Dynamic model”中给出了再入飞行器的动力学描述，明确了状态变量与运动方程，为后续强化学习环境构建提供物理基础。该部分的结论在于：研究对象的运动学与动力学约束能够被系统纳入可达域生成框架，使后续学习问题建立在严格的飞行力学模型之上。

在“A computational approach for reachable domain based on SAC”部分，研究人员系统提出了基于SAC的可达域快速计算方法。通过将任务定义为从任意初始状态出发、在约束下生成全部可达终端地面位置边界的问题，研究人员把传统数值优化问题转化为策略学习问题。该部分表明，端到端DRL框架能够直接学习状态到控制的映射关系，并通过轨迹簇方式逼近真实可达域边界，是本文方法论上的核心结果。

在“Training convergence and ablation experiments”部分，研究人员展示了两个智能体在代表性基准初始条件下的训练曲线。图示结果表明，Agent1对应右侧任务，Agent2对应左侧任务，平均奖励随训练过程稳步上升并最终稳定，说明训练过程具有良好的收敛性和稳定性。进一步地，论文还进行了消融实验，以验证选择SAC作为基础强化学习算法的合理性。尽管当前提供文本未完整列出所有对比细节，但原文明确指出该实验用于比较不同算法条件下的训练表现，从而支持SAC在本任务中的适用性判断。由此可见，所提框架不仅在概念上可行，而且在训练层面具有稳定收敛能力。

结合摘要和引言中的结果描述，研究人员进一步在多种飞行条件下开展仿真验证，包括不同半球以及飞行过程中的不同状态点。结果显示，训练完成后的智能体能够快速预测可达域，并与高斯伪谱法所得解保持高保真一致性。这说明所提方法在生成精度上接近传统高精度数值优化方法，而在计算形式上摆脱了在线迭代求解负担，体现出面向实时应用的优势。与此同时，该方法在未见初始条件下仍表现出较好的泛化能力与计算稳定性，说明所学习到的并非仅仅是有限数据样本的静态拟合关系，而是一定程度上捕捉了飞行器动力学和约束条件所支配的可达性边界规律。

从论文讨论所体现的总体逻辑来看，本文的重要意义主要体现在范式转换上。既有高超声速轨迹强化学习研究大多服务于特定任务约束下的单目标轨迹生成，而本文将深度强化学习的能力重新定位于飞行能力边界表征，通过主动探索状态—动作空间前沿，学习可达域的整体几何边界。这一转变使强化学习不再只是传统制导与控制任务的替代求解工具，而成为飞行器机动能力评估与任务规划的基础建模手段。双智能体结构与多目标奖励设计则进一步体现出将飞行力学先验知识融入强化学习框架的思路，有助于提升学习效率并增强边界覆盖完整性。对高超声速飞行器而言，这种方法为实时轨迹规划、自主决策以及在线能力评估提供了新的技术路径。

研究结论部分可译述如下：本文提出了一种端到端深度强化学习框架，用于快速生成高超声速飞行器的可达域。为克服传统优化方法和数据驱动监督学习方法的局限性，研究人员将可达域生成问题建模为马尔可夫决策过程（MDP），并采用软演员-评论家算法（SAC）进行求解。为提高学习效率并确保边界覆盖的完整性，研究人员依据相关符号特征将可达域生成任务划分为两个子问题，并分别由两个专门智能体处理。总体而言，该研究证明了基于深度强化学习的端到端可达域生成在精度、效率、泛化性与稳定性方面具有应用潜力，为高超声速飞行器实时在线决策提供了可行且有效的解决方案。

联系信箱：

粤ICP备09063491号

热点排行