通过大语言模型（LLM）增强型多智能体强化学习实现无人机博弈的层次化决策制定

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Aerospace Science and Technology》：Hierarchical Decision-Making for UAVs’ Game via LLM Enhanced Multi-Agent Reinforcement Learning

【字体：大中小】 时间：2026年03月28日 来源：Aerospace Science and Technology 5.8

编辑推荐：

　　多无人机协同决策中提出LLM-MATD3框架，通过分层任务分解与任务增强的AC网络实现高维状态下的全局规划与局部执行协同，显著提升胜率、存活率和协作效率。

Xinyu Dong|Bo Li|Guangyu Zhang|Bing Xiao|Yuanshun Wang

上海海事大学物流科学与工程学院，中国上海

摘要

在多无人机游戏任务中，智能代理面临高维状态处理、动态情境感知和协作决策等挑战，这些挑战是传统方法无法有效解决的。本文提出了一种新型的大语言模型增强型多智能体深度强化学习方案（LLM-MATD3），该方案采用分层决策架构，包括环境建模层、LLM任务规划器和任务增强型MATD3网络。该方案首先使用分层任务分解机制，通过任务嵌入技术将LLM的高级游戏指令转换为连续嵌入向量。然后，LLM任务规划器分析全局游戏情况，并为无人机分配不同的任务，克服了传统MATD3框架仅依赖局部观测的局限性。仿真结果显示，无人机的胜率、存活率和协作效率均有显著提升，为复杂游戏环境中的多智能体系统提供了一种创新的参考方法。

引言

近年来，无人机（UAV）技术在航空航天领域取得了快速进展，自主飞行控制和复杂环境中的协作决策性能直接决定了系统的综合能力[1]。现代无人机系统面临许多技术挑战，其中执行器故障和抗干扰控制问题尤为突出，需要智能跟踪控制策略来保障飞行安全[2]。此外，现代电磁环境（以强电磁脉冲和故意干扰为特征）对无人机的传感器模块和通信链路产生了严重影响[3]。在高度动态的空中游戏场景中，包括阵风和湍流在内的外部干扰不断威胁飞行稳定性，将固定时间观测器与滑模控制相结合提供了一种有效的解决方案[4]。然而，当多架无人机在如此复杂的游戏环境中协作时，实时协作决策、动态任务分配和智能游戏策略成为关键问题。

多无人机协作系统通过分布式架构提高了运营效率。例如，基于上下文的特征融合[5]提高了情境感知能力，但在动态环境中存在计算延迟；渐近稳定的编队控制[6]确保了收敛性，但响应速度较慢；智能任务规划[7]、[8]在静态场景中表现出色，但缺乏实时重新规划能力。随着智能体数量的增加，决策和控制的复杂性呈指数级增长。在[9]中，基于专家规则的系统实现了高效率，但泛化能力有限。博弈论方法[10]提供了严格的框架，但求解纳什均衡的计算成本过高。此外，传统优化算法在处理实时约束、高维空间和动态环境中的收敛性问题时遇到困难[11]、[12]、[13]。基于位置的权重方案[14]在干扰下缺乏稳定性，而鲁棒强化学习[15]对未见过的任务场景的适应能力有限。这些瓶颈阻碍了多无人机协作系统的部署。

随着人工智能的发展，深度强化学习（DRL）已广泛应用于无人机决策[16]，从离散动作的DQN[17]发展到连续控制的DDPG[18]以及PPO的CTDE框架[19]。然而，仍存在一些局限性：Wang等人[20]将SAC与HER结合用于路径规划，但面临高维计算负担；Liu等人[21]提出了用于多旋翼无人机协调的固定时间ADP框架，但主要关注编队任务而非游戏场景；TD3[22]通过双Q网络提高了稳定性，但在多智能体协作方面存在问题。多智能体强化学习现在面临环境非平稳性、信用分配和维度挑战[23]。像QMIX[24]和QTRAN[25]这样的价值分解方法能够实现协作，但假设动作空间是离散的。最近的进展显示了混合结果：值得注意的是，一些集成方法已经提出。例如，MAHPG[26]实现了策略多样性，但随着智能体数量的增加，扩展性较差；ME-MADDPG[27]需要专家设计的势场，限制了适应性；MATD3[28]继承了TD3的稳定性，但在游戏场景中缺乏全局协调。这些限制突显了理论进展与实际多无人机部署需求之间的差距。

另一方面，大语言模型（LLM）的突破性进展为解决上述问题提供了新的解决方案[29]。LLM在上下文理解、逻辑推理和知识合成方面具有强大的能力，能够从高级语义角度理解任务并生成全局策略。最新研究表明，将LLM与强化学习结合可以显著提高样本效率和泛化能力[30]。Zhu等人提出了LAMARL框架[31]，该框架利用LLM自动生成MARL的先验策略和奖励函数，无需手动设计即可实现协作策略生成，并通过先验策略集成显著提高了样本效率。Liu等人引入了LGPF框架[32]，利用LLM的少样本泛化能力将自然语言描述转换为编队模式，并结合CTDE架构实现精确的群体机器人控制。然而，如何有效整合LLM的高级认知能力和MARL的实时决策能力仍然是一个未解决的问题，特别是在高度动态的空中游戏环境中。

需要注意的是，现有的多无人机游戏决策方法仍存在以下三个局限性：（1）传统强化学习框架（如MATD3）仅依赖局部观测，缺乏全局情境感知[33]；（2）LLM生成的高级指令与强化学习中的连续策略学习之间存在语义差距[31]、[32]；（3）LLM的认知推理与MARL的实时决策之间的有效集成机制尚不存在[34]。为了解决这些局限性，本文提出了一种LLM-MATD3方案，通过LLM-MARL集成构建了连接全局游戏规划和局部执行的分层决策框架。主要贡献包括：

(1)

提出了一种基于大语言模型的游戏分析和任务规划框架，可以全面分析复杂游戏情况，并为每架无人机分配任务类型，从而实现从宏观游戏视角到微观执行的分层决策控制。

(2)

提出了一种分层任务分解机制，通过专门的游戏奖励函数将抽象任务标签分解为状态依赖的连续子目标完成分数。这增强了任务嵌入的语义表达能力，实现了从离散任务分配到连续行为指导的转换。

(3)

提出了一种任务感知的Actor-Critic网络结构，将增强后的任务嵌入整合到策略和价值网络中。Actor网络通过结合状态观测和任务特定指导来生成任务条件下的动作，而Critic网络学习考虑任务标签转换的任务依赖价值函数，从而实现跨不同任务类型的自适应决策性能。

部分摘录

无人机的运动模型

假设无人机在执行惯性协调机动时保持固定高度。基于此假设，单架无人机的运动学模型如下所示[35]：

\begin{matrix} {\dot{p}}_{i} & = V_{i} = [\begin{matrix} v_{i} \cos θ_{i} \\ v_{i} \sin θ_{i} \end{matrix} \\ θ_{i} & = arctan2(v_{y}^{i},v_{x}^{i}) \end{matrix}

其中

p_{i} = {[x_{i}, y_{i}]}^{?}

表示第i架无人机的位置向量，航向角

θ_{i} \in (? π,π

相对于惯性坐标系的X轴定义。控制力根据

{\dot{v}}_{x i = F_{x i / m_{uav}}}

, 其中

LLM增强的MATD3框架和方法

鉴于现有的LLM增强型强化学习方法，它们通常在预训练或冷启动阶段提供一次性指导，例如LLM引导的探索[34]、先验策略生成[36]、编队模式描述[37]和动作分布指导[38]。与上述结果相比，所提出的LLM-MATD3通过分层任务嵌入机制将LLM指令持续整合到Actor-Critic网络中，实现了实时策略

实验和结果

本节通过三个互补实验验证了所提出的LLM-MATD3框架：基线比较、任务分配的消融研究和跨不同任务规模的可扩展性分析。

结论

本文提出了一种基于大语言模型的多智能体深度强化学习方案（LLM-MATD3）用于任务决策。通过系统仿真实验，我们证明了其在多智能体决策领域的有效性。分层任务分解机制将抽象任务标签转换为状态依赖的子目标分数，有效地将LLM指导与自主决策相结合。这种方法提高了协作能力

CRediT作者贡献声明

Xinyu Dong：撰写——原始草稿、验证、方法论、研究。Bo Li：撰写——审稿与编辑、监督、方法论、研究、资金获取、概念化。Guangyu Zhang：撰写——审稿与编辑、监督、方法论。Bing Xiao：撰写——审稿与编辑、监督、方法论。Yuanshun Wang：验证、研究。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言