面向无奖励离线模仿学习的异常感知转移机制

《Pattern Recognition》：Anomaly-aware transitions for reward-free offline imitation learning

【字体：大中小】 时间：2026年04月09日 来源：Pattern Recognition 7.6

编辑推荐：

　　尽管面向机器人控制与自动驾驶等安全关键领域的离线模仿学习（offline imitation learning, IL）已取得显著进展，但在次优轨迹存在标注噪声的场景下，面对异常奖励信号时可靠策略学习仍面临挑战。为解决该问题，研究人员提出异常感知转移模仿学习（

尽管面向机器人控制与自动驾驶等安全关键领域的离线模仿学习（offline imitation learning, IL）已取得显著进展，但在次优轨迹存在标注噪声的场景下，面对异常奖励信号时可靠策略学习仍面临挑战。为解决该问题，研究人员提出异常感知转移模仿学习（Anomaly-aware Transitions Imitation Learning, ANTIL）框架，该框架由基础模型驱动，可识别异常奖励信号并以离线方式完成恢复。具体而言，ANTIL首先通过在预训练世界模型的潜在流形内评估动力学感知的专家邻近性，检测并重新定义异常奖励。与以往采用简单几何度量（如原始状态空间中的欧氏距离）的方法不同，该方法能够捕捉底层物理约束与可达性，从而将不可靠或缺失的奖励信号重塑为动力学可行且语义一致的值。随后，研究人员通过放大回报条件（amplified return conditioning）执行奖励引导校正，克服异常奖励信号的干扰，生成与专家行为对齐的策略。最后，利用扩散模型恢复高质量轨迹，同时保持与环境动力学的一致性。在D4RL基准测试集（涵盖运动控制、迷宫导航、Adroit操作与FrankaKitchen任务）上的大量实验表明，在不同噪声水平、奖励稀疏性及数据集异常条件下，ANTIL始终优于当前最先进的离线强化学习（reinforcement learning, RL）与IL基线方法。这些结果凸显了ANTIL作为鲁棒解决方案的潜力，可用于现实自动控制系统中的抗异常轨迹生成与策略学习。

《Pattern Recognition》刊载的研究针对离线模仿学习（offline imitation learning, IL）在安全关键场景中的应用瓶颈展开。当前强化学习（reinforcement learning, RL）依赖环境交互试错，在真实场景中因成本高、风险大难以落地，且奖励函数设计需大量领域专业知识，泛化性不足。离线IL虽避免了在线交互，但传统行为克隆（behavior cloning, BC）高度依赖高质量专家数据，而现实中采集的数据常包含人类错误、观测受限导致的次优行为，现有方法无法有效处理异常奖励信号，限制了策略可靠性。

研究人员提出异常感知转移模仿学习（Anomaly-aware Transitions Imitation Learning, ANTIL）框架，通过动力学感知奖励重塑与扩散模型轨迹生成，解决无奖励或噪声奖励场景下的策略优化问题。实验结果表明，该方法在D4RL多领域基准中均优于现有离线RL与IL基线，尤其在含复杂物理约束（如迷宫障碍）与高维动力学的环境中表现出更强鲁棒性，为现实自动控制系统提供了抗异常轨迹生成的新方案。

关键技术方法包括：1. 基于自监督隐式世界模型的动力学感知奖励重塑机制，通过潜在流形内的专家邻近性评估替代原始状态空间的几何度量，结合物理约束与可达性重分配奖励；2. 奖励引导采样与重加权策略，通过回报放大扩展支持域，结合结构相似性度量过滤轨迹，引导扩散模型合成符合动力学约束的行为；3. 扩散模型驱动的轨迹恢复模块，在无在线交互条件下生成高质量、动态一致的轨迹数据。所有实验均基于D4RL基准数据集，涵盖运动控制、迷宫导航、Adroit操作与FrankaKitchen四类任务场景。

研究结果如下：

离线强化学习（offline reinforcement learning, RL）范式梳理

研究人员将现有离线RL方法分为四类：基于模型的方法通过学习显式动力学模型进行规划或模拟rollout，可泛化至未见过的状态-动作对，但性能受限于模型偏差；单步方法直接优化策略以避免分布偏移；模仿学习方法通过对齐专家行为分布实现策略学习；轨迹优化方法聚焦于序列决策的路径规划。ANTIL被归类为基于基础模型的IL数据增强框架，兼容各类离线RL与IL算法。

马尔可夫决策过程（Markov Decision Process, MDP）建模

研究将序贯决策问题建模为元组(S, A, ρ₀, T, r, γ)，其中S为状态空间，A为动作空间，ρ₀为初始状态分布，T: S×A?S为转移函数，r: S×A?R为奖励函数，γ∈[0,1)为未来奖励折扣因子。策略π(a_t|s_t)定义为从状态到动作分布的映射，目标为学习最优策略π^?以最大化累积回报。

方法论：ANTIL框架设计

ANTIL包含两个核心阶段：第一阶段为动力学感知奖励塑造，在预训练世界模型的潜在流形内计算次优轨迹与专家转移的相似度，替代原始奖励注释，生成语义一致且符合物理约束的奖励信号；第二阶段为奖励引导轨迹生成，通过放大回报条件校正异常奖励，利用扩散模型合成与专家行为对齐、动态一致的高质量轨迹，构建增强数据集D^?。

实验结果与分析

在D4RL基准测试中，ANTIL在不同噪声水平、奖励稀疏性及数据集异常条件下的性能均超越现有基线。具体表现为：在运动控制任务中，生成的轨迹回报值更高且动态稳定性更强；在迷宫导航任务中，可有效规避障碍物并找到最优路径；在高维操作任务（Adroit、FrankaKitchen）中，显著提升了细粒度动作的准确性与成功率。消融实验验证了动力学感知奖励重塑与奖励引导采样的独立贡献，证明二者协同作用可最大化轨迹质量。

结论与讨论

研究提出的ANTIL框架通过隐式动力学感知奖励重塑与放大回报条件，实现了无地面真值奖励场景下的高质量轨迹增强。该方法将环境约束与转移可行性内化为奖励信号，消除了对噪声奖励的依赖，为离线IL提供了鲁棒的数据增强方案。研究结论表明，ANTIL可作为通用基础模型驱动框架，兼容多种离线RL与IL算法，在安全关键领域的自动化控制系统中具有重要应用价值，尤其适用于奖励信号缺失或不可靠的真实场景。作者声明无已知竞争性财务利益或个人关系影响本研究，相关工作得到国家自然科学基金杰出青年基金（62325307）、重大科研仪器研制项目（62527809）及深圳市重点产业研发计划（ZDCY20250901102300001）等资助。

热点排行