用于在线强化学习控制算法解释的评价器匹配损失景观可视化

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Acta Astronautica》：Visualizing critic match loss landscapes for interpretation of online reinforcement learning control algorithms

【字体：大中小】 时间：2026年04月25日 来源：Acta Astronautica 3.4

编辑推荐：

　　强化学习（Reinforcement Learning, RL）已在多个领域展现出强大能力，但其性能在系统动力学变化时无法得到保证，很大程度上依赖于使用者的经验。对于具有演员-评价器（Actor-Critic, AC）结构的强化学习算法，评价神经网络（Crit

强化学习（Reinforcement Learning, RL）已在多个领域展现出强大能力，但其性能在系统动力学变化时无法得到保证，很大程度上依赖于使用者的经验。对于具有演员-评价器（Actor-Critic, AC）结构的强化学习算法，评价神经网络（Critic Neural Network）反映了RL算法中的近似与优化过程。分析评价神经网络的性能有助于理解算法机制。为支持动态控制问题中此类算法的系统化解释，本研究提出了一种针对在线强化学习的评价器匹配损失景观（Critic Match Loss Landscape）可视化方法。该方法通过将记录的评价器参数轨迹投影到低维线性子空间上来构建损失景观。利用固定的参考状态样本和时间差分（Temporal-Difference, TD）目标，在投影后的参数网格上评估评价器匹配损失，从而生成三维损失曲面以及刻画评价器学习行为的二维优化路径。为将分析扩展至视觉观察之外，研究引入了定量景观指标和归一化系统性能指标，实现了对不同训练结果的结构化比较。该方法以动作依赖启发式动态规划（Action-Dependent Heuristic Dynamic Programming, ADHDP）算法为示例，在倒立摆和航天器姿态控制任务上进行了验证。针对不同投影方法和训练阶段的比较分析揭示了与稳定收敛和不稳定学习相关的不同景观特征。所提出的框架实现了对在线强化学习中评价器优化行为的定性与定量解释。

本研究发表于《Acta Astronautica》，旨在解决在线强化学习控制算法解释性不足的问题。强化学习算法在机器人、游戏、导航与决策等领域虽已取得显著成效，但在系统存在不确定性时，其性能并非总能得到保证，且往往依赖使用者的经验判断。特别是在线强化学习场景中，环境持续变化导致系统动力学不断改变，如雷基移除等任务中组合航天器存在未知移动附件的情形，使得算法的实时适应性至关重要。然而，现有研究多聚焦于奖励景观和演员损失景观的可视化，从策略结果或演员优化角度解释算法性能，未能直接揭示评价器模块的优化过程及其几何特性。评价器模块在AC结构中用于近似值函数或成本函数，其近似精度显著影响甚至决定学习稳定性。因此，深入理解评价器行为对于揭示学习机制、解释强化学习算法具有重要意义。

研究人员提出了一种评价器匹配损失景观可视化方法，用于在线强化学习中评价器优化行为的定性与定量解释。该方法通过将记录的评价器参数轨迹投影到低维线性子空间，构建三维损失曲面并叠加二维优化路径，同时引入锐度（Sharpness）、盆地面积（Basin Area）和局部各向异性（Local Anisotropy）三个定量指标，以及归一化系统性能指标，实现景观几何特性与控制性能的关联分析。研究以ADHDP算法为对象，在倒立摆系统和航天器姿态系统上进行了验证。

研究采用的关键技术方法包括：主成分分析（Principal Component Analysis, PCA）方法用于生成评价器权重向量组的两组正交方向，作为景观可视化的投影平面；"滤波归一化"（Filter Normalization）方法用于损失景观的三维可视化；基于固定参考状态样本和TD目标的评价器匹配损失构建方法，确保在在线学习动态变化条件下形成定义良好的标量场；以及多元线性回归用于局部曲率拟合以计算条件数。样本方面，倒立摆系统采用100次试验的训练数据，航天器姿态系统采用300次试验的训练数据，其中航天器系统惯性矩阵设为[10.1 0.1; 0.1 0.1 0.1; 0.1 0.1 0.9] kg·m²，控制扭矩上限为1 N·m。

研究结果部分，"倒立摆系统ADHDP控制的评价器匹配损失景观"方面，通过PCA投影（前两主成分分别解释69.9%和25.7%的方差，累计95.6%）得到三维光滑损失景观，二维优化路径显示权重从损失较大区域沿梯度下降方向收敛至低损失区域，形成单调递减的优化轨迹，与成功控制结果相对应。

"航天器姿态系统ADHDP控制的评价器匹配损失景观"方面，最终策略下的损失景观呈现双峰结构与双碗状区域（前两主成分解释81.7%和8.4%方差，累计90.1%），优化路径在多个局部极小值间振荡，最终终止于高损失平坦区域，反映训练发散特征。

"跨系统比较"方面，定量指标显示：倒立摆系统锐度为7.952687、盆地面积为3.519303、局部各向异性对数为1.445154、归一化成本为0.001029；航天器姿态系统对应指标分别为0.267753、20.596623、2.651535和0.148814。结果表明单一指标需结合解读，锐度反映局部刚度，盆地面积在低损失碎片景观中可能膨胀，各向异性揭示方向性困难，三者联合模式与系统性能指标一致。

"基于随机方向降维的最终策略评价器匹配损失景观"方面，随机正交方向投影下，倒立摆系统仍保持单一倾斜表面和清晰下降通道，航天器姿态系统则呈现浅拱形结构，优化路径环绕环状区域，缺乏强下降方向，验证了解释对投影方法的不依赖性。

"训练过程中的评价器匹配损失景观"方面，倒立摆系统第50次试验的中期景观已呈现近凸盆地结构，与最终景观一致；航天器姿态系统第150次试验的中期景观形成被山脊分割的浅碗区域，优化路径部分回溯，显示学习信号随时间演化导致的几何结构变化。

讨论总结部分，研究结论指出：评价器匹配损失景观的低维投影虽然无法在量上重现训练过程中逐渐移动的TD目标的确切变化，但作为一种揭示训练趋势和局部几何特性的性能指标，能够直观展示参数演化的优化通道或不稳定回路；PCA投影与随机方向投影的比较表明，损失景观的关键特征具有内在性而非投影伪影；中期与最终景观的对比揭示了在线学习中"移动目标效应"对优化稳定性的影响，即早期局部信息性梯度可能与最终盆地几何错位，导致步长敏感性和振荡行为。该框架为演员-评价器算法在系统控制应用中的解释与比较提供了实用工具，未来可扩展至更多强化学习变体和更高维控制任务。

联系信箱：

粤ICP备09063491号

热点排行