城市交通系统中速度、停车和转向的协同优化

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Coordinated optimization of speed, parking, and turns in an integrated urban traffic system

【字体：大中小】 时间：2026年04月03日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　城市交通拥堵仍是城市出行的主要挑战。本研究提出了一种基于近端策略优化（Proximal Policy Optimization, PPO）的深度强化学习（Deep Reinforcement Learning, DRL）智能交通控制系统，统一协调速度控制、停车

城市交通拥堵仍是城市出行的主要挑战。本研究提出了一种基于近端策略优化（Proximal Policy Optimization, PPO）的深度强化学习（Deep Reinforcement Learning, DRL）智能交通控制系统，统一协调速度控制、停车管理和转向权限。该方法应用于包含16个交叉口的曼哈顿风格网格中的4种交通场景，并在约400万（4 M）训练步骤中评估了三种控制方法（静态、基于规则和PPO）。利用SUMO-Python仿真环境，该系统根据实时输入变量动态调整速度限制、停车区域和交叉口转向，以防止瓶颈。系统分析多种交通指标以做出协同决策，并在不同拥堵模式下评估其有效性。结果表明，PPO系统在所有场景中均改善了交通性能，在交通需求方面展现出可扩展性（在测试拓扑内），与基于规则的速度调整和静态基线相比，实现了：二氧化碳排放（CO2 Emissions）降低19–31%，队列长度（Queue length, QL）降低18–35%，平均旅行时间（Average Travel Time, ATT）降低8–18%，交通流量（Traffic Flow, TF）增加5–7%。此外，三种控制的联合管理优于最佳单一策略，根据情况实现了额外17–32%的改善。这些发现证明了一个清晰的协同红利，即统一控制速度、停车和转向 yields 优于独立运行的性能，为发展更可持续的城市和交通规则的智能化修改提供了一种模块化且可能适应的替代方案。

城市交通拥堵严重影响了生活质量，表现为通勤时间增加、燃料消耗上升以及环境污染加剧。尽管现有的管理策略如速度控制、停车管理和条件转向许可已被单独研究，但将这些机制整合为一个能够同时优化多个参数的协同系统仍面临巨大挑战。传统方法往往依赖预设规则或单一控制变量，缺乏对环境动态变化的自适应能力，难以解决速度、停车和转向之间复杂的非线性耦合问题。因此，开展这项研究旨在通过构建一个集成的自适应交通控制系统，以更智能和可持续的方式提升城市交通效率与道路安全，实现从被动管理向主动协同控制的转变。

研究人员基于深度强化学习（Deep Reinforcement Learning, DRL）框架，采用近端策略优化（Proximal Policy Optimization, PPO）算法，构建了一个联合优化速度、停车和转向的协同控制模型。研究在SUMO（Simulation of Urban Mobility）仿真平台与Python编程环境中进行，设计了包含16个交叉口的曼哈顿风格网格作为验证拓扑，并设定了四种涵盖从低流量到极端饱和不同交通需求水平的实验场景。研究人员通过整合8个输入变量（包括车辆数、平均速度、时间段、星期几、交通灯状态、转向决策、停车数据和起讫点路线）和6个性能指标（平均旅行时间、等待时间、队列长度、交通流量、二氧化碳排放和事故概率），实现了系统对复杂交通状态的全面感知。训练过程中，研究人员对输入输出变量进行了标准化处理，利用PPO算法的截断代理目标函数优化策略网络，并设置了严格的动作执行持久性约束以防止系统振荡。研究最终通过对比静态控制、基于规则的速度控制以及完整的PPO协同控制系统，验证了该模型在提升交通效率和安全性方面的有效性。

**Operational Efficiency（运行效率）**
研究结果显示，在低流量和中等流量场景（场景1和场景2）中，PPO控制器通过优先保障流动性和减少环境足迹，显著降低了中位数等待时间和队列长度。对比静态基线，PPO系统在场景1中将等待时间降低了约50.1%，队列长度降低了36.3%；在场景2中，等待时间降低了38.4%，队列长度降低了37.9%。

**Safety and Risk Mitigation（安全与风险缓解）**
随着交通需求的增加，PPO系统在稳定安全指标方面的能力尤为突出。在场景3中，通过减少走走停停的交通循环，事故概率（ADP）大幅降低。数据显示，PPO系统使场景3的事故概率降低了69.8%，相比仅调整速度的规则基线也降低了48.39%。

**Systemic Stability under Peak Demand（高峰需求下的系统稳定性）**
在最为复杂的高压环境（场景4，极端流量）下，PPO代理成功防止了全面瘫痪。系统维持了较高的车辆流量，降低了平均旅行时间和事故概率。在场景4中，PPO系统使队列长度降低了28.7%，等待时间降低了33.5%，且交通流量相比静态基线增加了6.2%，证明了其在极限条件下的鲁棒性。

**消融实验与协同效应分析（Ablation and Synergy Analysis）**
研究人员通过消融实验进一步验证了协同控制的必要性。去除任何单一控制模块（速度、停车或转向）均导致系统性能显著下降，其中移除速度控制对性能的影响最大。完整的DRL+PPO系统相比仅使用速度控制的配置，平均性能提升了32%；相比仅使用速度和转向控制的配置，提升了17%；相比仅使用速度和停车控制的配置，提升了22%。统计检验表明，完整系统的表现显著优于所有部分配置，证实了“协同红利”的存在。

**结论总结（Conclusion）**
本研究提出了一种基于强化学习的先进城市交通控制框架，能够同时协调速度限制、交叉口转向动作和停车利用率。通过SUMO仿真验证，该框架相较于无智能控制的系统，实现了显著的性能提升：事故概率降低49.73%，队列长度降低35.4%，等待时间降低38.09%，二氧化碳排放降低30.85%，同时交通流量增加7.20%，平均旅行时间减少17.8%。研究表明，移除任一控制杠杆均会降低性能，而协调所有三个控制模块可提供额外的性能提升。由于模块化设计，该系统具备可扩展性和适应性，有望集成到现有的智能交通系统（Intelligent Transportation Systems, ITS）中，通过逐步实施路径（如从受控环境如校园或智慧街区开始试点），为未来更可持续的城市出行提供强有力的技术支持。

联系信箱：

粤ICP备09063491号

热点排行