QLFDGWO：Q学习引导的加权适应度-距离灰狼优化器用于无人机路径规划

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biomimetics》：QLFDGWO: Q-Learning-Guided Weighted Fitness–Distance Grey Wolf Optimizer for UAV Path Planning

【字体：大中小】 时间：2026年06月17日 来源：Biomimetics 3.9

编辑推荐：

　　传统灰狼优化器（GWO）在处理复杂优化任务时，常面临搜索多样性不足、阶段过渡不稳定以及早熟收敛等问题。为克服这些局限，研究人员提出了一种改进的灰狼优化器，其采用Q学习引导的适应度-距离加权选择机制。在所提出的QLFDGWO框架中，首先引入混沌映射（chaoti

传统灰狼优化器（GWO）在处理复杂优化任务时，常面临搜索多样性不足、阶段过渡不稳定以及早熟收敛等问题。为克服这些局限，研究人员提出了一种改进的灰狼优化器，其采用Q学习引导的适应度-距离加权选择机制。在所提出的QLFDGWO框架中，首先引入混沌映射（chaotic mapping）以生成更具多样性的初始种群；采用余弦非线性收敛因子（cosine nonlinear convergence factor）以提升搜索过程中的调节能力；此外，构建了基于Q学习的策略选择机制（Q-learning-based strategy selection mechanism），实现探索与开发之间的自适应切换。为进一步改善GWO的领导结构，研究人员设计了Q学习引导的适应度-距离加权选择机制（Q-learning-guided fitness–distance-weighted selection mechanism），其中β狼和δ狼通过综合考量适应度质量及与α狼的空间距离进行选取。研究人员还设计了动态阈值加权更新策略（dynamic threshold-weighted update strategy），以增强种群的收敛精度和稳定性。最后，使用CEC2017基准函数集将所提算法与五种具有代表性的优化算法进行了对比测试。实验结果表明，QLFDGWO在优化精度、收敛速度和鲁棒性方面均取得了令人满意的性能。此外，QLFDGWO被应用于多种复杂场景下的三维（3D）无人机（UAV）路径规划问题。仿真结果表明，所提方法能够生成满足地形和障碍物约束的可行、安全的飞行路径。

论文解读：QLFDGWO算法——面向无人机路径规划的Q学习引导改进灰狼优化器

研究背景与问题
在科学与工程实践中，复杂优化问题广泛存在于控制系统设计、工业调度、电力系统优化及路径规划等领域。群智能优化算法因模拟生物群体协作行为与信息共享机制，在全局搜索能力、算法结构简洁性和问题适应性方面表现出显著优势。典型算法包括粒子群优化（PSO）、蚁群优化（ACO）和人工蜂群算法等。灰狼优化器（GWO）通过模拟灰狼群体的等级结构和捕猎行为完成优化搜索，具有结构简单、控制参数少和收敛较快的特点，在连续优化问题中展现出较强竞争力。然而，传统GWO在处理复杂函数或多峰问题时存在以下不足：第一，收敛因子的线性递减机制导致探索与开发阶段过渡不平滑，影响搜索效率；第二，个体更新依赖前三名个体的平均值，易降低种群多样性；第三，算法在复杂高维问题中易陷入局部最优。此外，传统GWO主要依据适应度排序选取α、β和δ狼，当领狼位置接近时，引导信息高度相似，进一步降低种群多样性，增加早熟收敛风险。针对上述问题，研究人员提出了QLFDGWO算法，旨在通过结合Q学习自适应策略和适应度-距离加权选优机制，提升GWO的全局搜索能力、收敛稳定性和工程实用性。该论文发表在《Biomimetics》上。

研究内容与结论
研究人员提出了一种基于Q学习引导策略选择和适应度-距离加权领狼选取的改进灰狼优化算法。主要贡献包括：构建Q学习引导的适应度-距离加权领狼选择机制，使β狼和δ狼在适应度质量与空间多样性之间取得平衡；设计动态阈值加权更新策略，根据种群适应度差异自适应调整精英引导权重；集成Tent混沌初始化和余弦非线性收敛因子，优化初始种群分布并平滑探索-开发过渡。通过CEC2017基准函数集与五种算法（PSO、GWO、MP-GWO、PSO-GWO、WOA）对比实验，QLFDGWO在多数单峰、多峰、混合和复合函数上取得了更优或具有竞争力的优化精度和稳定性。进一步将QLFDGWO应用于三维无人机路径规划，在六种复杂模拟场景（包括山地、城市禁飞区等）中验证了其生成可行、安全、平滑路径的能力，且路径质量、收敛速度和鲁棒性优于对比算法。

关键技术方法概述
研究人员使用的主要关键技术方法包括：（1）基于Tent混沌映射的种群初始化，用于提升初始解分布的均匀性和多样性；（2）余弦型非线性收敛因子，实现探索阶段向开发阶段的平滑过渡；（3）Q学习框架，包含离散状态空间（|A|幅值大小决定探索或开发）和动作空间（探索策略与开发策略），采用ε-贪婪策略进行动作选择，并通过适应度变化构建奖励函数（+1/-1）；（4）适应度-距离加权领狼选择机制，从候选池（前30%个体）中根据归一化适应度与空间距离的加权分数选取β和δ狼，权重由Q学习自适应从集合{0.70, 0.80, 0.90, 0.98}中选择；（5）动态阈值加权更新策略，在开发阶段根据适应度差异决定采用加权更新或等权平均更新。实验环境为MATLAB R2022b，无特定样本队列来源。

研究结果
4. 实验与性能分析
4.1 实验设置
采用CEC2017基准函数集中的12个函数（F1、F3、F4、F11、F12、F14、F15、F18、F20、F22、F25、F28），涵盖单峰、简单多峰、混合和复合函数。对比算法为PSO、GWO、MP-GWO、PSO-GWO、WOA。种群大小30，最大迭代500，维度分别设置为30和100，每算法独立运行30次。
4.2 实验结果
在D=30下，QLFDGWO在11个函数上优于GWO，12个优于MP-GWO，11个优于PSO-GWO，9个优于PSO，12个优于WOA；在D=100下，分别优于GWO（8个）、MP-GWO（10个）、PSO-GWO（8个）、PSO（9个）、WOA（11个）。QLFDGWO在多数函数上获得更小的平均适应度和标准偏差，尤其是在F1、F3、F11、F12、F18上稳定性突出。箱线图显示QLFDGWO的中位值更低且分布更紧凑。
4.3 消融实验
比较GWO、GWO-Tent-a（仅加入Tent混沌初始化和余弦收敛因子）、QLFDGWO-noFD（不含适应度-距离加权机制）和完整QLFDGWO。在F1、F12、F18上，逐步加入策略后优化性能逐步提升，完整QLFDGWO在两种维度下均取得最佳均值和最小偏差，证明各组件均有正向贡献。
4.4 计算复杂度分析
QLFDGWO的总时间复杂度为O(ND + T_max * (ND + NlogN + cost_f))，与标准GWO同阶，Q学习模块仅增加有限开销，空间复杂度为O(ND)。
4.5 参数敏感性分析
对折扣因子γ（测试0.6、0.7、0.8、0.9）和探索概率ε（测试0.05、0.1、0.15、0.2）进行敏感性分析。γ=0.8和ε=0.1取得更好的平均排名，表明默认设置能平衡即时与未来奖励及随机探索强度，且算法性能对参数不高度敏感。

5. 无人机路径规划案例研究
采用三维坐标系描述规划区域，路径由多个航点组成，地形由高程矩阵表示，障碍物建模为山体、圆柱形禁飞区或城市建筑。构建包含路径长度成本、高度成本、碰撞成本、禁飞区威胁成本和光滑度成本的综合目标函数。在六种复杂场景中对比六种算法，种群30，最大迭代100，独立运行30次。QLFDGWO在大多数场景中获得更优的最佳适应度、平均适应度和更小的标准差，且成功率高（尤其在密集城市场景中达到100%）。路径图及收敛曲线显示QLFDGWO生成的轨迹更平滑、绕行距离更短、安全性更高，且早期快速收敛。

总结讨论与结论翻译
讨论部分：尽管QLFDGWO在基准测试和无人机路径规划中表现良好，但仍存在局限：由于引入Q学习策略选择、适应度-距离加权选优和动态阈值加权更新机制，算法结构比原始GWO更复杂，可能在部分场景带来额外计算开销；当前无人机路径规划实验主要在模拟环境中进行，对动态障碍、不确定扰动和真实飞行场景的适应性仍需进一步验证。未来工作将集中于降低计算复杂度、提升实时性，并将该方法扩展到更复杂的动态路径规划任务。
结论部分翻译：本文提出了一种融合Q学习机制的改进灰狼优化算法QLFDGWO。基于Q学习的策略选择机制实现了探索与开发的自适应切换；适应度-距离加权领狼选择策略通过综合考虑适应度质量和空间分布选取β狼和δ狼，提升了领狼引导的多样性；动态阈值加权更新策略增强了种群位置更新的针对性，从而提高了收敛精度和稳定性；Tent混沌初始化和余弦非线性收敛因子进一步改善了初始种群分布和迭代搜索的阶段过渡。为验证所提算法的有效性，将QLFDGWO与经典GWO、PSO-GWO、MP-GWO以及两种经典群智能算法PSO和WOA进行系统比较，并在CEC2017测试函数集的12个典型函数上进行仿真实验。实验结果表明，QLFDGWO在单峰、多峰、低维和高维优化问题中均展现出优越的收敛性能和更强的稳定性，验证了所提改进策略在增强全局搜索能力和局部开发能力方面的有效性。将QLFDGWO应用于无人机轨迹规划问题，并在不同仿真环境中进行路径规划实验。结果表明，QLFDGWO能在复杂地形和障碍物约束下获得更高质量的可行路径，生成的轨迹具有更低的目标函数值、更大的安全裕度以及更短的飞行距离和飞行时间，展现出良好的工程适用性和实用价值。

联系信箱：

粤ICP备09063491号

热点排行