基于对抗式双深度Q网络的城市轨道虚拟耦合列车协同控制策略研究

《Expert Systems with Applications》:Research on cooperative control strategy of urban rail virtually coupled train based on dueling double deep Q-network

【字体: 时间:2026年04月15日 来源:Expert Systems with Applications 7.5

编辑推荐:

  本文提出基于D3QN-NPER算法的虚拟联挂列车协同控制方法,通过改进粒子群优化算法生成优化的首列车轨迹作为参考,结合带噪声的优先级经验回放机制提升训练效率,在保证安全的前提下实现平均运行时间缩短8.1%,最优跟踪距离比例提升18.73%。

  
裴慧琴|陈慧红|兰珠媛
华东交通大学电气与自动化工程学院,中国南昌,330013

摘要

为了满足日益增长的乘客需求,城市轨道交通系统迫切需要提高现有线路的利用率。在此背景下,本文创新性地提出了一种基于Dueling Double Deep Q-Network(D3QN)的合作控制方法,该方法可以在确保安全的同时减少列车运行时间并提高运营效率。首先,使用参数可变的粒子群优化算法来优化虚拟耦合列车组中领头列车的运行轨迹,该轨迹作为后续列车的跟踪参考曲线。其次,进一步构建了列车运行控制强化学习框架,并将其表示为马尔可夫决策过程(MDP),定义了强化学习框架的关键要素。D3QN算法结合了优先经验回放(PER)机制,使神经网络能够学习更有价值的经验。带噪声的参数网络通过向神经网络添加适当的噪声来促进探索,从而提高算法的鲁棒性和适应性。最后,基于北京颐庄线信息进行了实验模拟,以验证所提出方法的有效性。与其他基本的DQN算法相比,所提出的方法可以将后车的平均运行时间缩短8.1%,并使后续列车在整个运行过程中达到最佳跟踪距离的比例达到18.73%。

引言

随着城市人口的增长,交通拥堵和通勤压力等问题日益严重,城市轨道交通系统面临着越来越复杂的运营挑战。城市轨道交通系统通常采用两种解决方案来满足不断增长的乘客需求。一种是在大规模上建设新的城市轨道交通线路,但这种方法成本高昂且缺乏灵活性。另一种是提高现有线路的利用率,即在现有线路上实现更多列车的安全协作运行,研究重点已从单列车运行转向两列或多列车的协调。在现有轨道基础设施条件下,为了提高线路运输能力,铁路信号闭塞系统经历了三个阶段的发展:手动闭塞、固定闭塞和移动闭塞,通过逐步缩短列车运行间隔来优化运输效率。移动闭塞技术通过动态优化安全间隔来提高效率,但其设计逻辑要求列车在预设距离前必须制动,这限制了线路容量的增长。为了克服这一技术瓶颈,相关研究逐渐转向探索基于列车间通信的协作控制机制,以实现更紧凑的列车编组。
在这种背景下,Bock和Varchmin(1999年)提出的列车虚拟耦合技术逐渐出现,为提高轨道交通效率提供了新的动力。虚拟耦合技术相较于现有的移动闭塞技术有了显著进步。后者假设领头列车是静止的,并将两列或多列列车虚拟地组合在一起,从而大幅减少了列车跟踪间隔(Cao, Wen, & Ma, 2021)。然而,由于“安全第一”的原则以及列车间通信的局限性,虚拟耦合技术最初更多地侧重于理论研究(Felez & Vaquero-Serrano, 2023; Wu, Ge, Han, & Liu, 2023)。近年来,随着硬件速度的提高和大数据计算能力的增强,机器学习在实际应用中的实施成本有所下降。作为机器学习的一个分支,强化学习(Hu et al., 2024; Milani, Topin, Veloso, & Fang, 2024)强调通过持续的试错探索找到支持决策制定的最优解,并能够通过实时收集和分析大数据(包括乘客流量、天气条件、线路状态等信息)来动态调整列车协作运行控制策略,以更灵活地应对快速变化的运营环境。基于强化学习研究城市轨道交通虚拟耦合列车的协作控制具有重要的理论意义和实际价值。这不仅提升了城市轨道交通虚拟耦合列车系统的智能化水平,也为强化学习在复杂工业系统中的应用提供了重要参考。
为了在确保列车运行安全的同时提高城市交通运营效率,本文的主要创新如下:
1. 本文通过改进的粒子群优化算法优化了虚拟耦合列车编组中领头列车的运行轨迹。建立了一个包括领头列车轨迹生成和后续列车跟踪的运动学模型。在能耗、准点率、精确停车和安全性保护的限制下,改进了粒子群算法参数,构建了一个多目标优化模型,以求解最优速度曲线,其中领头列车的轨迹作为后续列车的跟踪参考。
2. 本文提出了一种带有噪声网络和优先经验回放(D3QN-NPER)的Dueling Double Deep Q-Network算法,用于优化城市轨道交通虚拟耦合列车的协作运行控制策略。在列车协作编组控制领域,D3QN算法由于其独特的双网络架构和价值函数分解特性,在列车间距优化方面表现出显著优势。同时,为了提高样本利用效率和增强模型的鲁棒性,基于D3QN算法引入了优先经验回放机制和噪声网络。
3. 基于北京颐庄线基础设施数据的实验模拟表明,与其他传统的DQN算法相比,本文提出的D3QN-NPER算法不仅提高了列车编组的间距控制精度,还更好地平衡了安全性和效率等多个优化目标,为智能列车协作控制提供了更可靠的技术支持。
本文的其余部分组织如下:第2节回顾了列车协作控制运营问题的相关文献。第3节详细介绍了本文的研究问题,包括列车动力学模型、虚拟耦合列车组模型和运营约束以及两站间运行轨迹的优化。第4节提出了本文的解决方案,设计了一种基于D3QN-NPER算法的虚拟耦合列车组协作控制方案。第5节通过数值模拟和比较证明了该方案的有效性。最后,第6节提供了结论并提出了未来的研究方向。

章节摘录

文献综述

在不断追求效率、安全和智能的城市轨道交通系统背景下,列车运行控制技术正在经历深刻变革。近年来,国内外学者一直在探索更精细和协作的列车运行策略,以增加线路容量、优化能耗并确保乘客

基本假设

为了在模型复杂性和实际可用性之间取得平衡,本文做出以下假设:
连续列车之间可以建立端到端的通信链接,实现实时交换运营状态信息。
本文主要关注两站之间列车的整体运行情况,领头列车在运行过程中不会突然停止,并在到达终点站后停止运行

解决方案

假设两列列车在两站之间行驶,当已知领头列车的运行轨迹时,后续列车需要采用适当的跟踪控制策略,在确保避免碰撞的前提下紧密跟随领头列车,并优化两列车之间的跟踪距离。本文将后续列车的跟踪控制策略视为一个序列决策问题,核心在于后续列车如何选择

实验设置与结果

本项目的实验模拟数据使用了北京颐庄线上九宫站至颐庄桥站的列车模型和线路信息。模拟基于Python 3.9完成,使用PyTorch 2.3.0构建神经网络,并在配置有Windows 11操作系统、32G RAM内存和第12代Intel(R) Core(TM) i5-12400F CPU的计算机上进行训练。表1列出了实验数据的具体信息。
计算

总结与未来工作

本研究提出了一种基于竞争性双深度Q网络的城轨列车协作控制策略。它通过具有可变参数的粒子群优化算法优化领头列车的运行轨迹,基于马尔可夫决策过程构建了列车运行控制强化学习框架,并利用竞争性双深度Q网络算法获得了后续列车的最优运行控制策略。

CRediT作者贡献声明

裴慧琴:撰写——审稿与编辑、资金获取、验证、资源协调、监督、项目管理。陈慧红:概念构思、方法论设计、软件开发、数据整理、初稿撰写。兰珠媛:软件开发、数据调查。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号