一种降低自动驾驶决策中动力学相关现实差距(Reality Gap)的课程学习(Curriculum Learning)方法

《Sensors》：A Curriculum Approach to Reduce the Dynamics-Related Reality Gap in Autonomous Driving Decision-Making

【字体：大中小】 时间：2026年06月12日 来源：Sensors 3.5

编辑推荐：

　　摘要：决策（Decision-Making，DM）是自动驾驶（Autonomous Driving，AD）的基本组成部分，复杂城市场景要求车辆具备安全、鲁棒且自适应的行为。本研究提出一种课程学习（Curriculum Learning，CL）方法，通过结合基于

摘要：决策（Decision-Making，DM）是自动驾驶（Autonomous Driving，AD）的基本组成部分，复杂城市场景要求车辆具备安全、鲁棒且自适应的行为。本研究提出一种课程学习（Curriculum Learning，CL）方法，通过结合基于学习的战术决策与经典规划控制方法的混合架构，以降低自动驾驶决策中动力学相关的现实差距（Reality Gap，RG）。所提方法遵循分阶段仿真到实车（Sim-to-Real）流程：首先在轻量级仿真器中训练决策策略以学习基本运动学行为；随后将其迁移至CARLA中进行细化以适应车辆动力学；接着使用真实平台及测试环境的数字孪生（Digital Twin，DT）进行场景特定微调；最后通过真车并行执行（Parallel Execution，PE）验证所得架构。该方法重点关注车辆动力学、执行器响应及场景几何，而非自动驾驶完整的Sim-to-Real问题。方法在多种城市场景（换道、环岛、汇入、十字路口）的仿真中评估，实车验证于受控汇入场景进行。实验结果表明，所提课程学习提升了各阶段训练效率与最终性能，在SMARTS中成功率超91%；在CARLA中，所提架构比Autopilot基线最快快50%完成评估场景，且在加速度与加加速度（Jerk）方面改善了舒适性与安全性指标；实车并行执行实验进一步证明了在受控条件下将决策架构迁移至物理车辆的可行性；消融实验量化了各课程阶段对系统整体性能的贡献。

论文解读：《A Curriculum Approach to Reduce the Dynamics-Related Reality Gap in Autonomous Driving Decision-Making》

该研究发表于《Sensors》期刊。现有基于深度强化学习（Deep Reinforcement Learning，DRL）的自动驾驶决策（Decision-Making，DM）系统在仿真中训练后直接部署于真实车辆时，面临显著的现实差距（Reality Gap，RG），尤其体现在车辆动力学差异、执行器响应延迟及场景几何不匹配上。直接在实车上进行强化学习训练成本高昂且存在安全风险，而仅在高保真仿真（如CARLA）中从零训练DRL策略收敛困难且易陷入局部最优。此外，多数现有研究止步于仿真验证，缺乏面向实车的有效Sim-to-Real迁移管道。为此，研究人员提出了一种基于课程学习（Curriculum Learning，CL）的四阶段混合决策架构Sim-to-Real迁移流程，结合数字孪生（Digital Twin，DT）与并行执行（Parallel Execution，PE），专门缩小动力学相关的现实差距，并在仿真与真实受控汇入场景中验证其有效性。

主要关键技术方法：

研究人员构建包含感知层、策略层（全局规划与场景识别）、战术层（基于DRL的离散行为选择，如drive/stop/change left/change right）及操作层（线性二次调节器LQR轨迹跟踪+模型预测控制MPC执行）的混合自动驾驶栈。采用部分可观测马尔可夫决策过程（Partially Observable Markov Decision Process，POMDP）建模四种城市场景（换道、环岛、汇入、十字路口），观察空间为低维相对距离与速度，去除他车意图信息以模拟部分可观性。课程四阶段为：(1) 在SUMO中随机初始化权重预训练战术DRL策略（TRPO算法择优），学习运动学行为；(2) 将SUMO所得权重作为CARLA中同结构网络的初值进行微调，引入车辆动力学；(3) 依据真实车辆参数（质量1030 kg、最大扭矩126 N·m、执行延迟0.50 s等）与校园实测道路几何在CARLA中构建DT，继续微调策略；(4) 通过PE系统实时同步真车位姿至CARLA中DT车辆，由仿真中生成对抗车辆提供观测，战术层输出高层指令经操作层转化为Drive-by-Wire（DBW）信号驱控真车。DRL网络均含两层128神经元全连接层（tanh激活），特征提取模块为多层感知机（Multi-Layer Perceptron，MLP）。

研究结果：

6.1 结果 in SUMO（SMARTS）

研究人员在SMARTS四个场景（无保护左转、三车道汇入、三车道道路、环岛）对比DQN、A2C、TRPO、PPO，发现TRPO（Trust Region Policy Optimization）在各场景成功率最高（无保护左转95.3%、三车道汇入98.4%、三车道道路93.6%、环岛91.7%），故选作后续课程阶段算法。与SOTA方法（Transformer场景表示DRL及专家示范+策略推导+DRL）相比，所提框架在三车道汇入和环岛场景成功率与完成效率均占优。

6.2 结果 in CARLA

6.2.1 Urban Scenarios for Reinforcement Learning：在Town03/Town04的四种场景中与CARLA Autopilot对比，所提混合架构成功率均具竞争力（接近或达100%），95百分位加加速度（Jerk）与最大Jerk显著更低（表明更舒适），场景完成时间最高快约50%，平均车速更高。

6.2.2 Digital Twins：在基于真实车辆参数与校园汇入场景构建的DT中微调后的策略（DT Agent）相较未微调的通用CARLA合并场景训练策略（General Model），成功率由89.1%提升至91.8%，95百分位Jerk与加速度降低，完成时间略短，证明DT微调缩小了动力学相关RG。

6.3 平行执行(Parallel Execution)

在受控汇入场景三种交通流（低、混合、高）下对比纯DT仿真与PE中真车表现：低交通流两者成功率均为100%（仿真时间19.18 s，实车19.99 s；95百分位Jerk分别为1.34与1.78 m/s3）；混合与高交通流成功率均≥95%，实车最大Jerk与加速度仅略高于仿真（偏差通常在10%–20%内），时序响应趋势一致，验证了DT对真实动态的可靠近似及PE系统的可行性。

6.4 消融研究与各课程阶段贡献

在合并场景DT中评估不同训练配置：仅SUMO训练→成功率20%、决策一致性67.5%；仅CARLA训练→成功率尚可但决策一致性69.5%、训练耗时1650 h；SUMO+CARLA→成功率40%、训练时间21.5 h；CARLA+DT（无SUMO先验）→决策一致性94.6%、成功率95%、训练1650 h；完整课程SUMO→CARLA→DT→成功率100%、决策一致性94.8%、信号相似度（Mean Normalized Cross-Correlation，MNCC）最高、总训练时间仅24.75 h，较从头训练加速约67倍。证明SUMO预训练大幅缩减收敛时间，CARLA引入动力学适应，DT微调提升实车对齐度，完整课程综合最优。

6.5 与现有框架对比

端到端模仿学习（如CIL、TransFuser）需海量标注数据且实车验证有限；直接Sim-to-Real RL（如Wayve）常依赖域随机化且仅处理简单任务；规则系统（RSS、POMDP求解器）多停留于仿真。所提方法通过带DT微调的课程学习，以较低数据成本实现复杂交互逻辑下的战术决策，并通过带仿真对抗车辆的PE实现无物理风险的碰撞规避验证，是少数在闭环实车环境中演示交叉口类平滑安全机动的研究。

讨论与结论翻译：

研究人员开发了一种面向实车应用的混合决策架构，遵循课程学习法以降低现实差距中的动力学相关成分：含SUMO运动学预训练、CARLA高保真动力学微调、匹配真实车辆与环境几何的DT再微调，以及通过并行执行与增强现实（Augmented Reality，AR）观测的真车验证。该方法允许在降低实车实验安全与经济限制的前提下模拟复杂场景。本研究在仿真中评估多种城市场景，实车验证限于受控汇入场景，因此关于真车执行的结论应在此测试范围内理解而非全场景完整验证。虽结果支持分阶段迁移管道的有效性，但本研究主要针对含车辆动力学、执行器响应及场景几何的RG动力学相关部分，感知不确定性、传感器噪声及与真实人类驾驶员的复杂交互未显式建模，留待未来工作。未来计划将PE扩展至环岛与多向交叉口等场景，引入真实对抗车辆（V2V通信），加入真实传感器以评估感知模块，并补充最小碰撞时间（Time-to-Collision，TTC）、侵入时间（Post-Encroachment Time，PET）等交互安全指标，探索遗传算法等替代优化范式。

热点排行