《Expert Systems with Applications》:Interpretable deep reinforcement learning with hybrid action space for cooperative ramp merging control
编辑推荐:
高速公路匝道合并控制中,提出基于混合动作空间的可解释强化学习框架HASAC,通过同步生成连续纵向加速度和离散横向换道决策,结合微观车辆交互与宏观交通特征的多目标奖励函数,实现效率与安全的协同优化。实验表明其性能显著优于基线方法,等待时间减少96.2%,碰撞风险降低87.5%。
李松|宗家伟|林一轩|赵欣|刘能超|范伟大卫
武汉理工大学交通与物流工程学院,中国武汉430063
摘要
匝道合流区域通常被认为是高速公路的瓶颈,容易发生车辆冲突,导致严重的拥堵和安全风险。传统的控制方法往往受到计算效率低和难以模拟复杂环境的限制,而基于深度学习的控制方法仍然面临可解释性不足的问题。为了解决这些挑战,本文提出了一种可解释的深度强化学习(DRL)框架,即混合动作软演员-评论家(HASAC),用于连接和自动化车辆(CAVs)的合作控制。通过修改神经网络,使其具有两个独立的策略头,该集成模型可以同时生成连续的纵向加速度控制和离散的横向变道决策,从而显著降低了动作空间的维度并简化了训练复杂性。此外,该模型结合了微观和宏观的交通状态,制定了一个多目标奖励函数,以最小化加速度车道排队、调节合流间隙,并通过全局排队惩罚来防止短视优化,从而协同优化效率和安全性。与多个基线的比较实验表明,HASAC在不同交通条件下的性能表现出强大的优越性。具体来说,等待时间、合流时间、停车次数和碰撞风险比率分别降低了96.2%、73.9%、81.4%和87.5%。通过时空轨迹分析系统地阐明了横向-纵向协同决策机制。同时,基于集成梯度(Integrated Gradients)的特征归因分析确定了状态特征(特别是速度和位置)对混合动作的固有影响。最后,使用加利福尼亚州的实际交通数据验证了该模型的有效性和可转移性,为匝道合流控制提供了一种可行的解决方案。
引言
具有复杂交通交互的高速公路匝道合流区域被广泛认为是高冲突区域,也是反复拥堵的主要来源。在这些区域内,主线流量和匝道流量的交汇会导致显著的速度差异和复杂的交织操作,严重降低交通效率。传统的控制策略,如匝道计量(Y.-Y. Chen等人,2021年;Song等人,2025年;Yang等人,2018年)和可变速度限制(VSL)(D. Frejo等人,2019年;Hsu等人,2025年;Wu等人,2020年)控制,通常通过周期性流量调节来缓解拥堵。然而,这些方法往往无法提供细粒度的、针对特定车辆的控制,使得真正的个性化交通管理变得难以实现。此外,反应式控制策略的固有延迟阻碍了实时响应。此外,传统方法中缺乏车辆间的协作,常常导致非协作甚至竞争性的情况,进一步加剧了拥堵。相比之下,连接和自动化车辆(CAVs)(T. Chen等人,2021年)使得直接的车辆控制成为可能,并通过车对一切(V2X)通信实现感知数据共享,为通过集中式协作算法解决冲突提供了一个有前景的范式。
现有的基于CAVs的合流控制方法通常分为三类:最优控制、博弈论和强化学习。最优控制方法(Tang等人,2022年;Xue等人,2022年),如模型预测控制(MPC)(An & Talebpour,2022年),严格执行严格的约束并理论上保证轨迹最优。虽然旨在实现全局最优,但计算负担和对精确数学模型的依赖促使了博弈论框架的发展(Davis,2009年),这些框架更适合实时多车辆交互决策。这些框架将合流过程建模为一个动态游戏,以寻求平衡系统效率和个体效用的均衡。然而,在复杂且高度动态的匝道合流环境中,这些方法的计算强度往往阻碍了实时约束的遵守。
因此,近年来深度强化学习(DRL)因其能够实时适应动态环境而被用于匝道合流控制(M. Li等人,2020年;Huang和Qu,2023年;Mao等人,2023年)。DRL不需要高保真度的数学模型,使代理能够通过环境交互自主学习策略,处理难以精确建模的环境和行为。如图1所示,现有的DRL框架使代理能够感知车辆交互和区域交通状态。利用共享的特征提取网络,这些算法生成变道和加速决策以提高效率和安全性。然而,当前的研究(Irshayyid和Chen,2023年;Lin等人,2020年)主要集中在解耦控制上,分别处理横向或纵向动态,常常忽略了混合横向-纵向动作所需的协调。因此,设计一个能够同时生成连续和离散动作的集成DRL框架,以实现合流场景中的协调决策至关重要。
此外,DRL固有的“黑箱”性质(Cai等人,2025年)使得控制策略不透明,限制了其在实际应用中的可信度和安全性。为了减轻这种不透明度,机器学习领域的研究人员率先开发了各种可解释人工智能(XAI)技术,旨在提高模型决策的可解释性和可信度。其中,诸如LIME(Ribeiro等人,2016年)和SHAP(Lundberg & Lee,2017年)这样的先驱模型不可知框架,通过结合局部替代方法和合作博弈论来量化特征贡献。通常,DRL中的可解释性研究通过状态(P. Li等人,2025年)、奖励(Q. Yang等人,2024年)、动作(Akrour等人,2022年)或任务级分析来解决问题。(Rizzo等人,2019年)将SHAP引入交通信号控制RL框架,量化SHAP值以揭示检测器状态对相位切换决策的贡献。虽然这种方法实现了全局解释,但其解释粒度受到线性特征假设的限制,难以直接映射到复杂的车辆行为。随后,(Zhou等人,2024年)提出了一种推理图RL框架,用于解决无信号混合交通交叉口的协调问题,通过建模车辆交互来提高动作透明度。然而,这种方法依赖于事后分析,缺乏对策略本身的结构化可解释表示。相比之下,集成梯度(IG)(Liu等人,2025年)方法通过满足完备性公理,有效缓解了深度网络中的梯度饱和问题,提供了更优越的内部归因准确性。尽管取得了这些进展,但专门针对基于DRL的合流决策的可解释性分析仍然很少。因此,迫切需要建立复杂合流状态与混合动作之间的相关性,阐明决策逻辑,以便于进行稳健的策略调整。
总之,现有关于CAV环境中合流控制的研究面临三个主要挑战:(1)传统方法通常受到模拟复杂、细粒度交通环境的计算负担的限制,阻碍了它们满足动态驾驶任务实时需求的能力。(2)现有方法主要集中在单一维度控制上。然而,合流操作本质上涉及连续的纵向加速度和离散的横向变道,需要一种混合动作控制策略。(3)基于DRL的合流策略往往缺乏机制分析,难以阐明状态因素和控制动作之间的因果相关性。为了弥合这些差距,本文提出了一种具有混合动作空间的可解释DRL框架,即混合动作软演员-评论家(HASAC),专为高速公路匝道上的CAVs合作合流设计。该框架实现了离散横向变道和连续纵向加速操作的同步控制。通过与四种基线方法的广泛比较实验,验证了HASAC在不同主线和匝道交通流量比下的性能和鲁棒性。此外,本研究基于IG进行了时空轨迹分析和可解释性分析,系统地阐明了协作机制以及算法性能与决策逻辑之间的相关性。最后,使用加利福尼亚州580号高速公路的高密度合流路段的实际交通数据验证了所提出方法的可转移性和有效性。主要贡献总结如下:
- (1)
本研究提出了一种基于DRL算法的动态协作匝道合流控制框架:SAC。通过融合微观车辆交互(混合局部动作)和宏观交通特征(全局状态),并设计一个平衡局部和全局效率的多目标奖励函数,所提出的方法实现了交通流量和安全的协同优化。
- (2)
通过设计混合动作空间,集成DRL方法促进了连续纵向加速度和离散横向变道动作的同时生成,实现了协调决策,同时显著降低了动作空间的维度并简化了训练复杂性。
- (3)
本研究构建了一个针对基于DRL的匝道合流控制的可解释性分析框架。通过应用IG进行归因分析以及时空轨迹分析,本研究揭示了控制代理行为和性能的潜在决策机制。
文献综述
早期关于合流控制的研究主要依赖于最优控制理论,根据车辆动态和特定目标函数制定优化问题。例如,Qiang等人(2025年)使用MPC根据车队状态动态调整匝道车辆速度;然而,这种方法忽略了车辆间的协作。相比之下,Rios-Torres和Malikopoulos(2017年)率先提出了用于合流区域CAVs协作加速的集中式最优控制模型
方法论
本研究通过主线车辆的主动协作控制,促进了匝道交通的有效合流。为此,本研究假设了一个CAVs环境,其中RSU作为中央代理来协调协作。RSU收集来自各个车辆的实时微观数据(例如位置、速度),并汇总宏观状态信息,如排队长度和平均速度。
本研究使用SUMO软件建立匝道合流场景的仿真环境,而TraCI接口促进了算法与仿真之间的实时通信和控制。模拟道路网络的拓扑结构如图3所示。具体来说,主线部分长度为1000米,总流量为1000辆/小时,初始车辆速度为90公里/小时;匝道长度为400米,交通流量为200辆/小时
结果与讨论
图6展示了三种DRL算法(HASAC、MPDQN和PASAC)在500个训练周期内的奖励曲线。为了严格区分所提出框架的算法优势,所有基线都严格遵循了标准化的实验协议。具体来说,所有代理使用相同的状态表示、动作定义和多目标奖励公式与环境交互。
结论
为了解决计算效率低、协调横向-纵向操作的复杂性以及DRL决策逻辑的不透明性问题,本文提出了一种具有混合动作空间的可解释DRL框架,用于协作匝道合流控制。通过融合微观和宏观状态表示,HASAC框架促进了协作状态感知。通过设计混合动作空间,使用两个独立的策略头生成离散
未引用的参考文献
Chen等人,2021年;el Kherroubi等人,2022年。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
致谢
作者衷心感谢来自国家自然科学基金(52302416)、湖北省自然科学基金(2025AFD751、2024AFD411、2024AFD406)的财政支持。