基于Q-learning的量子行为粒子群优化(Q-learning–based Quantum-behaved Particle Swarm Optimization, QLQPSO)算法在海上航线优化中的应用
《Applied Ocean Research》:Maritime route optimization using Q-learning–based quantum-behaved particle swarm optimization
编辑推荐:
摘要:随着全球海运贸易的快速增长,安全高效的航运航线优化需求日益迫切。传统粒子群优化(Particle Swarm Optimization, PSO)及其量子变种——量子行为粒子群优化(Quantum-behaved Particle Swarm Optim
摘要:随着全球海运贸易的快速增长,安全高效的航运航线优化需求日益迫切。传统粒子群优化(Particle Swarm Optimization, PSO)及其量子变种——量子行为粒子群优化(Quantum-behaved Particle Swarm Optimization, QPSO)在处理复杂航行约束时常面临早熟收敛及产生不可行解的问题。为解决上述局限,研究人员提出一种新颖的基于Q-learning的量子行为粒子群优化(Q-learning–based Quantum-behaved Particle Swarm Optimization, QLQPSO)算法。该方法引入多维状态空间与Q-learning控制器,自适应调节收缩—扩张系数(contraction–expansion coefficient, β)、吸引中心切换、模拟退火(Simulated Annealing, SA)及路径平滑操作;同时设计定制化的"投影+平滑"算子以保证生成航线的导航可行性。在中国—澳大利亚航线走廊上的实验评估表明,QLQPSO算法取得最短航程(3772 nm)、更低曲率及近完美可行性,持续优于PSO、QPSO、强化学习粒子群优化(Reinforcement Learning Particle Swarm Optimization, RLPSO)及强化学习量子行为粒子群优化(Reinforcement Learning Quantum-behaved Particle Swarm Optimization, RLQQPSO, 原文记作RLQPSO)。消融实验进一步验证了Q-learning驱动调度机制与约束修复算子对算法性能提升的关键作用。综上所述,QLQPSO算法为复杂海图环境下的海上航线优化提供了稳健高效的解决方案,具备显著的航海产业实际应用潜力。
论文解读——《Maritime route optimization using Q-learning–based quantum-behaved particle swarm optimization》发表于《Applied Ocean Research》
研究背景与立项依据
海上运输是全球贸易支柱,海上航线优化旨在提升航行安全性与经济效率。传统大圆航线计算在复杂海岸线、岛屿、浅滩及限制区中难以给出可行解。经典粒子群优化(PSO)及其量子变种量子行为粒子群优化(QPSO)因易陷入早熟收敛、对参数敏感、缺乏显式可行性保证机制,在受障碍约束的航海环境中常产生不可行航路或过度迂回。现有强化学习增强的PSO(RLPSO)与RLQPSO虽改善参数自适应能力,但仍未充分解决复杂约束下可行性强制保障与种群多样性维持问题。因此,研究人员开展本研究以填补上述空白。
主要关键技术方法
研究人员选用NOAA ETOPO 2022全球地形数据裁剪的中国—澳大利亚航线区域(40°S~58°N,100°E~150°E)作为实验海图,可行域定义为水深>0区域。以球面大圆距离总和最小化为目标函数,约束包括所有航路点属于可行域Ω、转向角不超过θmax=45°及不与障碍物相交。对比算法为PSO、QPSO、RLPSO及RLQPSO。QLQPSO的核心方法含:(1)四维离散状态向量st=[ρt(适应度下降率), dt(种群多样性), zt(停滞度), ?t(可行性比)]经指数平滑与分箱量化;(2)有限动作集A含β调整、吸引中心模式切换(ω∈{0.4,0.6,0.8})、启用模拟退火(初始T0=0.1, 指数冷却)及路径平滑修复;(3)表格型Q-learning按ε-greedy选策、标准TD更新(αQ=0.1→0.02, γ=0.95, εt线性衰减);(4)统一约束处理算子:不可行点投影至Ω最近点+障碍段局部重连+滑动平均平滑+再投影。所有算法共享同款约束修复模块以保证公平比较,QLQPSO每H代调用一次Q-learning决策。各算法独立运行30次取统计值。
研究结果
2.1 Maritime route optimization model(海上航线优化模型)
研究人员将问题建模为起止点间满足可行域、最大转向角及避障约束的航点序列,目标函数为各相邻航点间大圆距离之和,明确定义了可行域约束(pi∈Ω)、转向角约束(|θi+1?θi|≤θmax)及障碍物回避约束。
2.2 PSO and QPSO(PSO与QPSO基础及局限)
研究人员回顾PSO位置—速度更新及QPSO取消速度项、以吸引中心pic、平均最优位置mbest及β控制量子势阱采样的更新公式,指出现有QPSO固定β致探索—开发失衡、简单均值mbest致早熟聚集、无约束修复致不可行解,RL变体存计算开销大与参数依赖问题。
2.3 QLQPSO(Q-learning增强的量子行为粒子群优化)
研究人员设计QLQPSO框架嵌入Q-learning控制器,每控制窗口根据st经ε-greedy选动作,动态调整β∈[0.50,0.95]步长Δβ=0.03、切换ω吸引模式、触发SA接受劣解以逃局部极值、激活投影+平滑修复。奖励函数结合距离改善量、可行性惩罚(1??t)、停滞指示及转向超限惩罚crough(Pt),权重w1=1,w2=0.2,w3=0.5,w4=0.1。Q值依Robbins–Monro条件更新保证收敛。
2.4 Common constraint-handling strategy(通用约束处理策略)
研究人员对所有对比算法统一施加投影(Proj)→局部重连(Reconnect)→滑动平均平滑(Smooth)→再投影(Re-proj)的组合修复算子,确保各算法在相同Ω内运作且路径几何合理。
2.5 Pseudocode and implementation process(伪代码与流程)
研究人员给出QLQPSO初始化(粒子生成并修复、pbest/gbest/mbest计算、指标与Q表初始化)、迭代(QPSO位置更新受β/ω调控、可选SA、约束修复、最佳解更新、指标统计、每H代Q-learning决策)及终止判据(最大代数/停滞超阈/精度达标)。
3 Theoretical analysis(理论分析)
研究人员证明动作集严格包含关系APSO?AQPSO?ARLQPSO?AQLQPSO,由Bellman最优性得扩展动作集期望势函数下降量不小于子集(命题3.1及推论4.1),QLQPSO单步期望势下降优于基线。在Robbins–Monro条件下Q值收敛至Q、诱导π使目标形成上鞅几乎处处收敛,期望ε-最优集首达时不晚于对比算法。1-Lipschitz投影保证QLQPSO可行性比FQLQPSO(t)=1。多样性下限Dmin由Q-learning在检测到Dt<Dmin时以概率1选恢复性动作避免崩溃。平滑+投影算子使累积曲率C与转向违例率V单调不增。时间复杂度O(NDT)与QPSO同阶。
4 Experiments and results analysis(实验与结果分析)
4.1 Experimental environment and data description:采用NOAA ETOPO 2022裁剪中澳航线海区,Intel i7/16GB/NVIDIA RTX 3060/Python 3.11环境。
4.2 Comparison algorithms:PSO、QPSO、RLPSO、RLQPSO、QLQPSO。
4.3 Convergence performance comparison:QLQPSO初期下降最快且持续改善不早熟,PSO/RLPSO早停,QPSO振荡缓收敛,RLQPSO居中。
4.4 Diversity and stability analysis:PSO/RLPSO多样性骤降,QPSO偏高但收敛慢,QLQPSO早期降后稳于适中水平并有微幅回升抗停滞。
4.5 Ablation study:完整QLQPSO最佳成本3772.1 nm、可行性100%、末10代多样性0.36、航点数19、转向违例0;去投影可行性降至52%;去平滑航点数增至21;去Q-learning可行性87%且航点数增多,证实三组件均必要。
4.6 Visualization of route planning results:QLQPSO给出最短最平滑路径,绕障合规;PSO/RLPSO偏近障碍点多,QPSO/RLQPSO存冗余绕行,QLQPSO综合最优。
4.7 Summary:QLQPSO在航程、可行性、多样性、平滑性上均优于基准方法。
讨论与结论翻译
本研究针对传统PSO、QPSO及其RL增强变种在海上航线优化中早熟收敛、约束处理不足及复杂海况下可行性低等缺陷,提出QLQPSO算法。该算法在QPSO框架内集成Q-learning控制器动态监测收敛效率、种群多样性、停滞度与可行性并自适应选择β调节、吸引中心切换、模拟退火启用及路径平滑修复操作,辅以投影—平滑约束修复算子确保所有轨迹满足航海约束。实验表明QLQPSO在收敛速度、最优航程(3772 nm)、多样性保持及可行性比(≈98%~100%)上均优于PSO、QPSO、RLPSO与RLQPSO,在中澳航线案例中取得最短航距、最低曲率与优异避障能力。消融实验确证Q-learning调度、投影修复与平滑修复各组件之必要性。QLQPSO克服了常规方法在复杂可行域中的局限,兼顾航行安全与经济效率,为实用海上航线规划提供高效稳健智能优化工具。未来工作将融合气象与海洋流数据、拓展至多目标动态优化及深度强化学习混合架构。