认知车联网(Internet of Vehicles, IoV)中面向人工智能驱动认知V2X协作式多智能体(Multi-Agent) QTRAN(Q-value Transformation)框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Applied Sciences》：A Cooperative Multi-Agent QTRAN Framework for Artificial Intelligence-Driven Cognitive V2X in the Internet of Vehicles

【字体：大中小】 时间：2026年06月19日 来源：Applied Sciences 2.5

编辑推荐：

　　由于认知Vehicle-to-Everything (V2X)网络中动态频谱共享、强干扰耦合及安全关键型Vehicle-to-Vehicle (V2V)业务严格时延约束的存在，其资源分配具有挑战性。尽管近期多智能体强化学习（Multi-Agent Reinfo

由于认知Vehicle-to-Everything (V2X)网络中动态频谱共享、强干扰耦合及安全关键型Vehicle-to-Vehicle (V2V)业务严格时延约束的存在，其资源分配具有挑战性。尽管近期多智能体强化学习（Multi-Agent Reinforcement Learning, MARL）方法报道了可喜增益，但多数评估在有限固定网络规模下进行，限制了对密集频谱复用下可扩展性的洞察。本文研究面向干扰感知与时延约束V2X资源管理的协作式多智能体学习。研究人员在集中训练分布式执行（Centralized Training with Decentralized Execution, CTDE）范式下，提出基于Q值变换（Q-value Transformation, QTRAN）的值分解框架，用于V2V智能体间联合资源块（Resource Block, RB）与功率分配。所提方法在融合曼哈顿网格（Manhattan grid）移动性、快衰落、显式跨层及同频干扰、逐链路载荷/截止期（deadline）动态的逼真V2V/V2I仿真器中实现。除通信层性能提升外，V2V安全消息的及时递送可支撑协作机动、碰撞规避、编队行驶及设施辅助交通管理。研究人员在变数量V2V智能体下开展广泛仿真，将QTRAN与独立学习基线（含MARL）及集中式单智能体学习（Single-Agent Reinforcement Learning, SARL）对比。结果表明QTRAN优于所选基线，并在干扰耦合频谱复用下增强吞吐–可靠性折衷。例如N=10时QTRAN达V2V速率、V2I速率，V2V成功率且截止期错过比（Deadline Miss Ratio）低至；更高密度（N=50）时QTRAN维持强可靠性（V2V成功率___、完成率Completion Ratio ）同时保持竞争性基础设施吞吐（V2I速率）。结果表明QTRAN有效捕获非线性干扰交互，使分布式频谱与功率决策在所采用密度评估设定下实现协调，从而提升认知车联网中V2V可靠性与吞吐。

论文解读：认知车联网中基于QTRAN协作多智能体框架的V2X资源分配研究

该文发表于《Applied Sciences》。在车联网（Internet of Vehicles, IoV）与Vehicle-to-Everything（V2X）通信快速发展背景下，认知V2X系统允许V2V链路动态复用V2I（Vehicle-to-Infrastructure）上行频谱以提升利用率，但V2V与V2I共存于严格时延和可靠性要求下使资源分配成为高度耦合的非凸优化问题。现有深度强化学习（Deep Reinforcement Learning, DRL）方法多采用独立多智能体学习，各智能体无显式协调，在密集动态IoV中易致次优与不稳定；而典型合作MARL如QMIX强制单调性（monotonicity）约束，限制了对V2X中强非线性干扰耦合的建模能力。此外多数研究仅在固定小规模网络评估，缺乏变密度下的可扩展性验证，且时延截止期常处理隐含。为此研究人员将认知V2X联合RB–功率分配建模为合作马尔可夫博弈（Markov Game），引入QTRAN（Q-value Transformation）值分解框架解除单调性限制，在CTDE（Centralized Training with Decentralized Execution）范式下使分散V2V智能体习得协调策略，并在含曼哈顿网格移动性、3GPP路径损耗、阴影及瑞利快衰、显式跨层/同频干扰及逐链路载荷与deadline动态的真实验证环境中系统评估不同V2V智能体数下的性能。

主要关键技术方法：研究人员构建单小区曼哈顿网格拓扑认知V2X系统模型，N个V2V发射机各自选RB与离散功率级，V2V机会性复用N个专属于V2I上行RB；信道模型含3GPP V2V/V2I路径损耗、空间相关对数正态阴影及RB独立瑞利快衰，SINR考虑V2V间同RB互干扰、V2V对RSU V2I接收干扰及V2I对V2V接收干扰；每V2V链路由有限载荷与最大允许时延构成deadline约束。将问题建模为N人合作马尔可夫博弈，全局状态含全网信道/干扰/剩余载荷/deadline，各智能体局部观测含到意图接收机与各RB到RSU的信道增益、测得的各RB干扰及自身剩余载荷/deadline；联合动作空间为各智能体{RB,功率级}组合；共享奖励加权归一化V2I吞吐与V2V截止期感知交付效用。采用QTRAN值分解——各智能体学个体效用Q_i(o_i,a_i)，集中网络近似联合动作值函数Q_tot(s,a)及可学习修正项V(s)，通过最优性约束Q_tot(s,a)=ΣQ_i(o_i,a_i)+V(s)与非最优性惩罚使分解一致但解除QMIX单调限制；经经验回放、TD误差及约束损失联合优化，训练后弃用集中网络，执行时各智能体依argmax Q_i分布决策。基线为独立MARL（Independent DQN）与集中式SARL（单智能体DQN）。

研究结果

•
Reward and Loss Convergence（奖励与损失收敛性）：N=20时QTRAN奖励曲线较MARL与SARL更平滑稳定、波动小，损失收敛至更低稳定区；表明CTDE下QTRAN约束降低干扰耦合引起的非平稳性，训练更稳定。
•
Throughput Performance（吞吐量性能）：随V2V智能体数N由10增至50，QTRAN V2V频谱效率持续高于MARL与SARL，V2I速率保持竞争（例N=10时V2I约___、V2V高于MARL与SARL；N=50时V2I仍高且V2V速率显著优于MARL，SARL在V2V层严重退化）。说明QTRAN改善频谱复用效率且不过分牺牲V2I上行性能。
•
Reliability and Quality of Service（可靠性与QoS）：N=10至50各密度下QTRAN的V2V成功率（V2V Success Rate）、完成率（Completion Ratio, CR）均最高，截止期错过比（Deadline Miss Ratio, DMR）最低（如N=10时CR与成功率明显高于MARL，SARL最差；N=50时QTRAN仍维持高CR与低DMR，MARL下降，SARL可靠性极差）。证实QTRAN通过捕获交叉干扰交互提升deadline约束下V2V交付。
•
Spectrum Efficiency（频谱争用/RB冲突链路数）：RB碰撞链路数随N增长但QTRAN显著低于MARL与SARL（如N=10时QTRAN RB Collision Links少于MARL/SARL；N=50时差距依旧），表明QTRAN习得更有序频谱复用模式，减少破坏性同RB冲突。
•
Fairness（公平性/ Jain's Fairness Index）：中低密度QTRAN公平指数高于MARL与SARL（N=10时QTRAN JF优于二者；N=20时进一步提升且明显超越），高密度下三者趋近但QTRAN仍略优或持平，反映QTRAN协调减少资源分配不对称。

讨论与结论翻译

研究表明，在曼哈顿网格认知V2X场景中将QTRAN基合作MARL用于干扰耦合频谱复用与功率控制是有效的。在所考察密度N=10–50下QTRAN持续实现优良吞吐–可靠性折衷：维持高V2I频谱效率（例N=10时约___ bit/s/Hz，N=50时约___ bit/s/Hz）同时较所选基线提升V2V频谱效率与截止期约束交付（例N=10时V2V成功率___、完成率CR ___；N=50时仍维持高CR与低DMR）。所提方法相较所选基线减轻有害频谱争用（更低RB冲突链路数）并在中高密度具竞争性公平性。结果提示，解除单调性限制的协作值分解是认知V2X干扰耦合频谱复用中有前景方向；通信层V2V/V2I可靠性与及时性提升可支撑协作机动、碰撞规避、编队及设施辅助交通管理等安全关键应用。未来工作将拓展至多RSU/小区、异质QoS类别、连续功率控制、固定RB过载场景、更多合作MARL基线、消融实验、多种子训练及与交通流仿真器联合评估宏观交通指标。

联系信箱：

粤ICP备09063491号

热点排行