基于深度强化学习的重型铁路维护机械捣固作业调度优化

《Applied Soft Computing》：Optimization of Heavy Railway Maintenance Machinery Tamping Scheduling based on Deep Reinforcement Learning

【字体：大中小】 时间：2026年06月08日 来源：Applied Soft Computing 6.6

编辑推荐：

　　韩章格|金旺|王卫东|卡西姆·扎希尔|廖林勇|孙颖|李友|邱实广西交通职业技术学院，南宁，530023，中国摘要高效且成本效益高的捣固调度对于基于状态的道砟轨道维护至关重要。本研究解决了在实际运营约束条件下重型铁路维护机械（HRMM）的调度问题。提出了一种考虑约束的深度强化学习（

韩章格|金旺|王卫东|卡西姆·扎希尔|廖林勇|孙颖|李友|邱实

广西交通职业技术学院，南宁，530023，中国

摘要

高效且成本效益高的捣固调度对于基于状态的道砟轨道维护至关重要。本研究解决了在实际运营约束条件下重型铁路维护机械（HRMM）的调度问题。提出了一种考虑约束的深度强化学习（DRL）框架，通过将轨道状态演变和HRMM操作的时空约束明确整合到统一的决策模型中来优化捣固决策。具体而言，该问题被构建为一个马尔可夫决策过程，其中单个HRMM组被建模为代理，并使用离散的Soft Actor-Critic（SAC）算法进行训练。采用Gamma过程来描述单个轨道单元的恶化情况，并设计了一个状态依赖的奖励函数，以综合考虑维护的及时性、运营效率和成本效益。通过在一段50公里的真实道砟轨道上进行案例研究，验证了所提出的方法。结果表明，该框架能够生成在维护效率、时间成本和经济成本方面表现良好的可行且高效的捣固计划。所提出的方法为基于状态的道砟轨道捣固调度提供了实用的决策支持。

引言

随着铁路运营里程的持续扩大，通过有效的基础设施维护来保障系统安全已成为铁路管理者的核心关注点。道砟轨道仍然是中国铁路网络中的主要轨道形式，其对运营安全、乘坐舒适性和使用寿命的延长至关重要，因为其结构稳定性和几何质量直接影响轨道性能。然而，对高效和精确维护的需求不断增加，使得传统的手动规划方法越来越不适应。为此，重型铁路维护机械（HRMM）已成为大规模机械化作业的主流解决方案。HRMM包括用于主要维护任务的专用重型设备，如轨道打磨、捣固和道砟清理。其中，捣固尤为重要，因为它可以恢复轨道几何形状和道砟支撑条件，其调度直接影响维护效率、轨道性能恢复和生命周期维护成本。

目前，HRMM的捣固调度主要遵循计划维护策略，将长期维护目标分解为年度、月度、周度和日常计划，这些计划基于维护窗口和可用运营能力制定。尽管这种方法便于组织大规模维护活动，但它严重依赖于预定义的规划规则，无法充分应对基础设施条件的动态变化。因此，实际维护需求与计划操作之间的不匹配可能导致维护不足或过度维护，从而造成不必要的成本和维护资源的低效使用。这些限制促使开发了一种基于状态的HRMM调度框架，在该框架中，维护行动由不断演变的轨道条件决定。这样的框架有望在复杂的维护约束下提供更加适应性强、精确且运营效率高的调度决策。

为了在减少规划过程的手动负担的同时开发基于状态的HRMM维护计划，有必要定量描述轨道状态并提高维护规划的时间分辨率。大规模维护调度本质上是一个具有显著时间依赖性和渐进式决策步骤的顺序决策问题。因此，该问题被构建为一个马尔可夫决策过程，并采用深度强化学习（DRL）来制定最小化年度维护成本的调度策略，同时改善轨道状态。所提出的模型能够生成满足大规模运营要求和维护时间窗口约束的维护计划。与从静态全局视角优化维护计划的传统方法不同，所提出的方法能够更好地适应轨道状态的动态和不确定性演变。

本文的结构如下：第2节回顾了铁路维护调度优化的最新进展以及DRL在基础设施维护领域的应用。第3节描述了研究问题的主要内容和假设。第4节提供了所提出模型的概述，包括基于马尔可夫决策过程的HRMM调度优化模型以及用于解决该模型的Soft Actor-Critic（SAC）算法的详细信息。第5节将所提出的模型应用于实际铁路维护场景。第6节讨论了实验结果，第7节总结了本文。

章节摘录

文献综述

铁路维护策略通常可以分为预定维护、预测性基于状态的维护和非预测性基于状态的维护[1]。在这些策略中，本研究考虑了在预测性基于状态维护背景下的维护决策优化。在这种情况下构建一个可信的决策模型不仅需要准确表示当前的轨道状态，还需要可靠预测未来的恶化趋势。

问题描述

与以往仅使用当前系统状态作为输入和相应维护动作作为输出的研究不同，本研究明确考虑了HRMM的运营复杂性及其相关的时空约束，从而使决策过程更符合实际维护实践。如图1所示，中国的铁路维护通常是在集中维护方案下进行的。在这个框架内，HRMM的操作过程通常

方法论

开发了一个DRL框架来优化HRMM的捣固调度。DRL的基本原理被认为是已知的，因此为简洁起见省略了详细说明。如图2所示，HRMM被建模为在不同机械配置下执行捣固的决策代理。模型状态由当前轨道状态和HRMM的当前位置定义，而动作决定了要应用于选定轨道单元的维护操作

案例研究

通过在广西省一段50公里的单线道砟铁路上进行案例研究，评估了所提出的方法。使用当地管理部门提供的2019年至2020年的历史轨道检查数据来进行模型构建和验证。基于SAC的决策架构如图4所示。

所提出框架中的所有神经网络都采用卷积神经网络（CNN）结构。演员网络包括一个输入层、三个卷积层

算法比较

所有实验都在64位Windows平台上使用开源深度学习库PyTorch进行，以实现和训练基于SAC的网络模型。为了评估所提出方法的有效性，考虑了四种代表性的强化学习算法进行比较：TD3、PPO、PPO-E和A2C。选择这些基线是为了系统地比较离策略方法（SAC和TD3）和在策略方法（PPO、PPO-E和A2C）。主要硬件

结论

本研究开发了一个基于强化学习的HRMM捣固调度决策优化框架，该框架明确考虑了实际运营约束和轨道状态演变。通过使用随机Gamma过程对轨道退化进行建模，并设计了一个状态依赖的奖励函数，所提出的方法能够在维护窗口级别实现精细的捣固决策。基于50公里道砟铁路段和真实历史数据的案例研究

代码可用性

本研究的源代码可在以下链接公开获取：https://github.com/chrozing/Heavy-Railway-Maintenance-Machinery-Tamping-Scheduling-based-on-Deep-Reinforcement-Learning

CRediT作者贡献声明

王卫东：监督。 金旺：概念化。 廖林勇：数据整理。 卡西姆·扎希尔：形式分析。 韩章格：写作——审阅与编辑，写作——初稿，可视化，软件，方法论，调查，数据整理。 李友：软件。 孙颖：方法论。 邱实：写作——审阅与编辑，监督，资金获取，形式分析，概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

摘要

引言