《ISPRS International Journal of Geo-Information》:Visualisation Methodology for Informed Decision-Making Applied to Smart City and Digital Twin Contexts
编辑推荐:
网约车调度系统在需求波动和动态交通条件下面临重大挑战,其中大规模网约车的高效协调对平台性能和驾驶员收入至关重要。该研究构建了基于网格的网约车调度决策模型(Grid-based Ride-hailing Vehicle Dispatch Decision Mod
网约车调度系统在需求波动和动态交通条件下面临重大挑战,其中大规模网约车的高效协调对平台性能和驾驶员收入至关重要。该研究构建了基于网格的网约车调度决策模型(Grid-based Ride-hailing Vehicle Dispatch Decision Model, GRV-DDM),该模型提供了车辆和订单的结构化、可量化表征,有效捕捉动态交通环境中的时空异质性。基于此模型,研究人员提出了双层优化多向调度决策算法(Bi-Level Optimization Multi-Directional Dispatch Decision Algorithm, BO-MDDA)。在宏观层面,采用进化博弈论(Evolutionary Game Theory, EGT)自适应地引导集体车辆策略趋向供需均衡;在微观层面,深度强化学习(Deep Reinforcement Learning, DRL)优化个体驾驶员的实时调度决策以最大化长期收益。进一步设计了双向反馈机制以整合宏观集体智能与微观个体决策。跨多种交通场景的实验结果表明,所提方法在效率和鲁棒性方面优于经典调度算法。
研究背景与问题阐述
随着城市化进程的加速和智慧出行解决方案的广泛普及,网约车服务已成为现代城市交通系统的重要组成部分。网约车平台通过提供灵活按需的出行服务,有助于缓解交通拥堵并提升整体出行效率。然而,用户需求的快速增长带来了一项关键挑战:如何在高度动态的交通条件下高效、准确地调度大规模车辆集群。传统调度方法往往依赖静态或简化的优化假设,难以应对复杂交通环境、波动需求模式和多目标优化要求,从而限制了其在现代网约车系统中的有效性。早期研究主要通过理性资源配置机制提升系统效率;后续研究引入博弈论建模异质参与者间的策略互动。尽管博弈论模型在平衡平台效率与个体收益方面提供了重要理论洞见,但其在交通条件快速变化和需求不确定的高度动态环境中的适用性常受制约。为克服这些局限,进化博弈论作为经典博弈论的延伸被采用,以更好地捕捉动态系统中代理的自适应行为和策略演化。与此同时,强化学习因其自学习和序贯决策优化能力逐渐成为网约车调度的重要方法。深度强化学习结合神经网络与强化学习处理高维状态空间和复杂特征表征,在大规模交通系统中展现出强劲潜力。然而,在多智能体环境中,深度强化学习面临优化复杂度增加、训练不稳定和样本效率低下等挑战。多智能体深度强化学习通过多智能体间的协同学习寻求提升系统性能,但在大规模网约车调度系统中仍面临智能体间复杂相互依赖与信息不对称、动态交通条件下快速可靠决策需求、策略振荡与收敛缓慢等核心难题。平衡全局系统目标与局部智能体利益在大规模多智能体环境中仍是一个关键且未解决的挑战。
研究内容与技术方法
为解决上述挑战,研究人员提出了一种融合多智能体深度强化学习与进化博弈理论的网约车车辆调度策略算法。该研究采用的数据集来源于滴滴出行(DiDi Chuxing),包含2016年11月连续四周的成都市大规模网约车订单和车辆轨迹记录。实验基于SimMobility仿真平台开展,该平台整合了真实出租车轨迹数据重构的动态交通变化。
研究所用的核心技术方法包括以下三个主要部分:
第一,基于网格的网约车调度决策模型(GRV-DDM)。该模型将城市区域划分为由多个相邻六边形单元组成的网格集合,每个网格与其六个相邻网格形成局部邻域关系。车辆和乘客均被映射到该网格空间上,以管理空间复杂性并缓解供需失衡。模型将网约车定义为具有三种运营状态(空闲、载客、调度中)的智能体,乘客请求首先与同网格内的空闲车辆匹配,剩余空闲车辆的调度决策基于邻接网格连通性和区域供需条件确定。
第二,双层优化多向调度决策算法(BO-MDDA)。该算法采用双层优化架构,包括全局优化器和局部优化器。全局优化器基于进化算法实现,嵌入频率依赖选择机制,通过自然选择、交叉和变异等进化操作引导集体调度策略的进化动态,使群体行为趋向稳定均衡。具体而言,维护包含M个策略团队的种群,通过独立种群模拟轮次评估适应度,经选择、交叉、变异和种群更新等迭代进化,最终收敛至演化稳定策略。局部优化器基于策略梯度方法,采用演员-评论家(Actor-Critic)架构,在集中训练分散执行框架下学习个体化调度策略。每个智能体维护独立的经验回放缓冲区,通过最小化时序差分误差更新评论家网络,依据确定性策略梯度定理更新演员网络,并采用软更新策略保持目标网络稳定性。
第三,双向反馈机制。该机制实现全局进化优化器与局部强化学习优化器之间的结构化信息交换:每代进化后,将精英团队生成的高性能轨迹注入智能体经验缓冲区以引导局部策略学习;同时将局部优化器学习到的最优策略参数封装为新策略团队注入进化种群,替换低适应度团队以丰富全局搜索空间。
研究结果
实验设置与基线对比
研究在三种交通场景下进行评估:(i)自由流交通,代表交通顺畅、供需均衡的理想化环境;(ii)真实世界交通,反映实际城市交通波动;(iii)拥堵交通,模拟高峰时段严重交通延误和显著供需失衡的极端条件。每种场景下分别设置3000、6000和9000辆网约车进行测试。BO-MDDA与四种代表性基线算法对比:贪心算法(Greedy,基于当前供需条件将空闲车辆分配至即时需求最高区域)、MADDPG(基于集中训练分散执行的多智能体深度确定性策略梯度算法)、COX(结合时空图卷积网络与深度Q学习的需求预测驱动调度框架)、RBDQN(融合图卷积网络与深度Q网络以捕捉城市道路网格空间关联的算法)。
综合性能分析
BO-MDDA在所有交通场景和评估指标上均表现最优。在自由流条件下,BO-MDDA实现最高订单响应率(Order Response Rate, ORR),同时获得最高累计驾驶员收入(Accumulated Driver Income, ADI)并保持相对较低的平均空闲时间(Average Idle Time, AIT),表明即使在供需失衡较温和时,双层优化框架仍能通过精细化智能体协调同时提升乘客服务效率和驾驶员收益。在真实世界交通条件下,BO-MDDA的优势更加显著,相比启发式和学习型基线方法,在ORR和ADI方面实现显著提升,同时AIT大幅降低。在拥堵交通场景下,尽管所有方法均出现不同程度的性能退化,BO-MDDA仍保持最佳整体表现,实现最高乘客请求满足能力、最高驾驶员收入和最低车辆空闲时间。实验结果验证了进化博弈论全局协调与深度强化学习局部优化的融合能有效缓解拥堵导致的调度低效。
消融实验:智能体建模粒度分析
为评估智能体建模粒度对调度性能的影响,研究人员将BO-MDDA与其网格级智能体变体G-BOMDDA进行对比。G-BOMDDA采用网格级智能体表征,将每个网格单元视为基于区域供需状态的集体调度智能体。结果表明:在自由流条件下,BO-MDDA的ORR从73.97%提升至86.11%,ADI接近翻倍,AIT降低约6个百分点;在真实世界交通场景下,BO-MDDA的ORR和AIT优势更加显著;在拥堵条件下,两种方法的性能差距缩小,但BO-MDDA仍保持微弱优势和更低AIT。该消融实验证实,车辆级精细智能体建模是BO-MDDA的关键组成部分,能实现个体决策与系统级优化之间更精确的协调。
调度性能时空分析
为揭示调度策略对供需失衡空间演化的影响,研究选取10:00作为代表性非高峰时段进行空间分析。可视化结果显示,未优化调度前城市系统存在显著空间异质性:多个高需求中心城区呈现严重负向供需缺口,而部分外围区域存在空闲车辆过度积累和局部供给冗余。应用BO-MDDA后,高度集中失衡区域显著收缩,极端供需缺口幅度大幅降低,整体空间分布从高度极化结构向更平滑均衡的空间配置演进,表明BO-MDDA能够执行跨区域的协调多智能体资源分配以缓解系统级空间失衡。
针对晚高峰时段(17:00–20:00)代表性格子的时间演化分析显示:非调度条件下,供需缺口随需求快速增长而持续扩大,达到严重短缺水平,且波动模式呈现强不稳定性;引入BO-MDDA后,供需缺口的时间演化展现出显著改善的稳定性和响应性,峰值前失衡幅度增长被显著抑制,峰值期间最大供需缺口远低于非调度条件,峰后恢复过程明显加快,波动幅度显著收窄。这反映了BO-MDDA在空间和时间维度的双重调节能力:空间上通过协调跨区域车辆再分配缓解局部失衡积累,时间上通过滚动优化和自适应策略学习阻止失衡传播和长期结构发散。
研究结论与意义
该研究提出的BO-MDDA框架面向动态交通条件和波动乘客需求下的大规模网约车调度问题,通过构建GRV-DDM表征城市环境中动态空间供需交互,整合进化博弈论与深度强化学习,在统一决策架构内实现宏观群体策略进化和微观实时调度优化,并通过双向反馈机制促进全局进化协调与局部策略学习的协同交互。实验结果表明,与代表性启发式和基于强化学习的调度方法相比,BO-MDDA在订单响应率、累计驾驶员收入和车辆利用效率方面均有持续改善。
该研究发表于《ISPRS International Journal of Geo-Information》,其重要意义在于:为大规模网约车调度系统中的全局效率与个体收益协调难题提供了创新的双层优化解决方案,将进化博弈论的群体智能与深度强化学习的个体自适应决策有效耦合,并通过双向反馈机制实现两者的动态互增强,为智慧城市和数字孪生背景下的动态资源调度提供了新的方法论参考。在实际大规模网约车平台中,BO-MDDA框架采用支持分布式并行优化的分层架构,全局进化优化器和局部强化学习优化器可跨多个计算节点异步训练,基于网格的空间分解进一步降低了调度决策的维度。
该研究也指出若干局限:首先,由于进化种群动态与多智能体强化学习的联合优化,框架在极大规模交通环境中仍产生相对较高的计算开销;其次,当前模型假设网格划分相对稳定,未明确纳入交通事故、天气扰动或临时交通管制政策等突发城市事件。未来工作将聚焦于提升收敛效率、开展更详细的模块级消融分析、引入自适应动态网格划分机制,以及整合外部上下文信息以进一步增强模型鲁棒性和实际适用性。