基于Q-learning的量子行为粒子群优化(Q-learning–based Quantum-behaved Particle Swarm Optimization, QLQPSO)算法在海上航线优化中的应用

《Applied Ocean Research》：Maritime route optimization using Q-learning–based quantum-behaved particle swarm optimization

【字体：大中小】 时间：2026年04月03日 来源：Applied Ocean Research 4.4

编辑推荐：

　　摘要：随着全球海运贸易的快速增长，安全高效的航运航线优化需求日益迫切。传统粒子群优化(Particle Swarm Optimization, PSO)及其量子变种——量子行为粒子群优化(Quantum-behaved Particle Swarm Optim

摘要：随着全球海运贸易的快速增长，安全高效的航运航线优化需求日益迫切。传统粒子群优化(Particle Swarm Optimization, PSO)及其量子变种——量子行为粒子群优化(Quantum-behaved Particle Swarm Optimization, QPSO)在处理复杂航行约束时常面临早熟收敛及产生不可行解的问题。为解决上述局限，研究人员提出一种新颖的基于Q-learning的量子行为粒子群优化(Q-learning–based Quantum-behaved Particle Swarm Optimization, QLQPSO)算法。该方法引入多维状态空间与Q-learning控制器，自适应调节收缩—扩张系数(contraction–expansion coefficient, β)、吸引中心切换、模拟退火(Simulated Annealing, SA)及路径平滑操作；同时设计定制化的"投影+平滑"算子以保证生成航线的导航可行性。在中国—澳大利亚航线走廊上的实验评估表明，QLQPSO算法取得最短航程(3772 nm)、更低曲率及近完美可行性，持续优于PSO、QPSO、强化学习粒子群优化(Reinforcement Learning Particle Swarm Optimization, RLPSO)及强化学习量子行为粒子群优化(Reinforcement Learning Quantum-behaved Particle Swarm Optimization, RLQQPSO, 原文记作RLQPSO)。消融实验进一步验证了Q-learning驱动调度机制与约束修复算子对算法性能提升的关键作用。综上所述，QLQPSO算法为复杂海图环境下的海上航线优化提供了稳健高效的解决方案，具备显著的航海产业实际应用潜力。

论文解读——《Maritime route optimization using Q-learning–based quantum-behaved particle swarm optimization》发表于《Applied Ocean Research》

研究背景与立项依据

海上运输是全球贸易支柱，海上航线优化旨在提升航行安全性与经济效率。传统大圆航线计算在复杂海岸线、岛屿、浅滩及限制区中难以给出可行解。经典粒子群优化(PSO)及其量子变种量子行为粒子群优化(QPSO)因易陷入早熟收敛、对参数敏感、缺乏显式可行性保证机制，在受障碍约束的航海环境中常产生不可行航路或过度迂回。现有强化学习增强的PSO(RLPSO)与RLQPSO虽改善参数自适应能力，但仍未充分解决复杂约束下可行性强制保障与种群多样性维持问题。因此，研究人员开展本研究以填补上述空白。

主要关键技术方法

研究人员选用NOAA ETOPO 2022全球地形数据裁剪的中国—澳大利亚航线区域（40°S～58°N，100°E～150°E）作为实验海图，可行域定义为水深＞0区域。以球面大圆距离总和最小化为目标函数，约束包括所有航路点属于可行域Ω、转向角不超过θ_max=45°及不与障碍物相交。对比算法为PSO、QPSO、RLPSO及RLQPSO。QLQPSO的核心方法含：(1)四维离散状态向量s_t=[ρ_t（适应度下降率）, d_t（种群多样性）, z_t（停滞度）, ?_t（可行性比）]经指数平滑与分箱量化；(2)有限动作集A含β调整、吸引中心模式切换(ω∈{0.4,0.6,0.8})、启用模拟退火(初始T₀=0.1, 指数冷却)及路径平滑修复；(3)表格型Q-learning按ε-greedy选策、标准TD更新(α_Q=0.1→0.02, γ=0.95, ε_t线性衰减)；(4)统一约束处理算子：不可行点投影至Ω最近点＋障碍段局部重连＋滑动平均平滑＋再投影。所有算法共享同款约束修复模块以保证公平比较，QLQPSO每H代调用一次Q-learning决策。各算法独立运行30次取统计值。

研究结果

2.1 Maritime route optimization model（海上航线优化模型）

研究人员将问题建模为起止点间满足可行域、最大转向角及避障约束的航点序列，目标函数为各相邻航点间大圆距离之和，明确定义了可行域约束(p_i∈Ω)、转向角约束(|θ_i+1?θ_i|≤θ_max)及障碍物回避约束。

2.2 PSO and QPSO（PSO与QPSO基础及局限）

研究人员回顾PSO位置—速度更新及QPSO取消速度项、以吸引中心p_i^c、平均最优位置mbest及β控制量子势阱采样的更新公式，指出现有QPSO固定β致探索—开发失衡、简单均值mbest致早熟聚集、无约束修复致不可行解，RL变体存计算开销大与参数依赖问题。

2.3 QLQPSO（Q-learning增强的量子行为粒子群优化）

研究人员设计QLQPSO框架嵌入Q-learning控制器，每控制窗口根据s_t经ε-greedy选动作，动态调整β∈[0.50,0.95]步长Δβ=0.03、切换ω吸引模式、触发SA接受劣解以逃局部极值、激活投影+平滑修复。奖励函数结合距离改善量、可行性惩罚(1??_t)、停滞指示及转向超限惩罚c_rough(P_t)，权重w₁=1,w₂=0.2,w₃=0.5,w₄=0.1。Q值依Robbins–Monro条件更新保证收敛。

2.4 Common constraint-handling strategy（通用约束处理策略）

研究人员对所有对比算法统一施加投影(Proj)→局部重连(Reconnect)→滑动平均平滑(Smooth)→再投影(Re-proj)的组合修复算子，确保各算法在相同Ω内运作且路径几何合理。

2.5 Pseudocode and implementation process（伪代码与流程）

研究人员给出QLQPSO初始化（粒子生成并修复、pbest/gbest/mbest计算、指标与Q表初始化）、迭代（QPSO位置更新受β/ω调控、可选SA、约束修复、最佳解更新、指标统计、每H代Q-learning决策）及终止判据（最大代数/停滞超阈/精度达标）。

3 Theoretical analysis（理论分析）

研究人员证明动作集严格包含关系A_PSO?A_QPSO?A_RLQPSO?A_QLQPSO，由Bellman最优性得扩展动作集期望势函数下降量不小于子集（命题3.1及推论4.1），QLQPSO单步期望势下降优于基线。在Robbins–Monro条件下Q值收敛至Q、诱导π使目标形成上鞅几乎处处收敛，期望ε-最优集首达时不晚于对比算法。1-Lipschitz投影保证QLQPSO可行性比F_QLQPSO(t)=1。多样性下限D_min由Q-learning在检测到D_t<D_min时以概率1选恢复性动作避免崩溃。平滑+投影算子使累积曲率C与转向违例率V单调不增。时间复杂度O(NDT)与QPSO同阶。

4 Experiments and results analysis（实验与结果分析）

4.1 Experimental environment and data description：采用NOAA ETOPO 2022裁剪中澳航线海区，Intel i7/16GB/NVIDIA RTX 3060/Python 3.11环境。

4.2 Comparison algorithms：PSO、QPSO、RLPSO、RLQPSO、QLQPSO。

4.3 Convergence performance comparison：QLQPSO初期下降最快且持续改善不早熟，PSO/RLPSO早停，QPSO振荡缓收敛，RLQPSO居中。

4.4 Diversity and stability analysis：PSO/RLPSO多样性骤降，QPSO偏高但收敛慢，QLQPSO早期降后稳于适中水平并有微幅回升抗停滞。

4.5 Ablation study：完整QLQPSO最佳成本3772.1 nm、可行性100%、末10代多样性0.36、航点数19、转向违例0；去投影可行性降至52%；去平滑航点数增至21；去Q-learning可行性87%且航点数增多，证实三组件均必要。

4.6 Visualization of route planning results：QLQPSO给出最短最平滑路径，绕障合规；PSO/RLPSO偏近障碍点多，QPSO/RLQPSO存冗余绕行，QLQPSO综合最优。

4.7 Summary：QLQPSO在航程、可行性、多样性、平滑性上均优于基准方法。

讨论与结论翻译

本研究针对传统PSO、QPSO及其RL增强变种在海上航线优化中早熟收敛、约束处理不足及复杂海况下可行性低等缺陷，提出QLQPSO算法。该算法在QPSO框架内集成Q-learning控制器动态监测收敛效率、种群多样性、停滞度与可行性并自适应选择β调节、吸引中心切换、模拟退火启用及路径平滑修复操作，辅以投影—平滑约束修复算子确保所有轨迹满足航海约束。实验表明QLQPSO在收敛速度、最优航程(3772 nm)、多样性保持及可行性比(≈98%~100%)上均优于PSO、QPSO、RLPSO与RLQPSO，在中澳航线案例中取得最短航距、最低曲率与优异避障能力。消融实验确证Q-learning调度、投影修复与平滑修复各组件之必要性。QLQPSO克服了常规方法在复杂可行域中的局限，兼顾航行安全与经济效率，为实用海上航线规划提供高效稳健智能优化工具。未来工作将融合气象与海洋流数据、拓展至多目标动态优化及深度强化学习混合架构。

热点排行