异构GEO-LEO卫星网络中的延迟与能量优化：一种GNN增强的博弈论与DRL方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Future Internet》：Delay and Energy Optimization in Heterogeneous GEO–LEO Satellite Networks: A GNN-Enhanced Game-Theoretic and DRL Approach

【字体：大中小】 时间：2026年06月09日 来源：Future Internet 3.6

编辑推荐：

　　随着6G移动通信的发展，低地球轨道（Low Earth Orbit, LEO）卫星移动边缘计算（mobile edge computing, MEC）实现了全球无缝计算。然而，LEO卫星的高速移动性破坏了服务连续性和资源稳定性。现有方法常采用过于简化的模型，忽

随着6G移动通信的发展，低地球轨道（Low Earth Orbit, LEO）卫星移动边缘计算（mobile edge computing, MEC）实现了全球无缝计算。然而，LEO卫星的高速移动性破坏了服务连续性和资源稳定性。现有方法常采用过于简化的模型，忽略了多波束干扰和动态任务排队。为解决此问题，研究人员构建了一种分层的地球静止轨道（Geostationary Earth Orbit, GEO）-LEO协同架构，利用GEO卫星作为稳定性锚点和远程云中继，而LEO卫星提供低延迟边缘处理。研究人员为两级波束中心通信和抢先式动态排队建立了精细化模型。由此产生的联合任务卸载与资源分配问题是一个复杂的混合整数非线性规划（mixed-integer nonlinear program, MINLP）。为有效求解该MINLP，研究人员将其分层解耦：首先确定离散卸载决策，然后基于这些决策优化连续资源分配，提出了一种新颖框架，称为G2DRL（GNN增强的博弈论与深度强化学习，GNN-enhanced Game-theoretic and deep reinforcement learning）。仿真结果表明，G2DRL显著降低了系统延迟和能量的加权和，在收敛稳定性和性能方面均优于最先进的DRL基线。

**论文解读：异构GEO-LEO卫星网络中的延迟与能量联合优化——基于GNN增强的博弈论与DRL框架**

**1. 研究背景与问题**
随着第六代（6G）移动通信的演进，空天地一体化网络（Space-Air-Ground Integrated Network, SAGIN）成为实现全球无缝覆盖和泛在连接的关键路径。低地球轨道（LEO）卫星星座因其低延迟和广域覆盖特性，被视为未来全球通信基础设施的骨干。然而，现有研究在处理真实世界复杂性时存在明显局限：首先，大部分工作仅关注单一LEO星座，而LEO的高速移动性导致服务链路的不稳定和中断；其次，建模精度不足，现代卫星接入链路的多波束特性常被忽略，无法捕捉关键的两级资源竞争；此外，广泛采用的单时隙完成假设不适用于许多长持续时间应用，忽略了复杂的排队动态和边缘节点的抢先调度需求。因此，亟需一种能够综合考虑多波束干扰、动态排队以及异构计算资源的联合优化方案，以最小化系统延迟与能量开销。

**2. 研究内容与结论**
针对上述挑战，研究人员提出了一种分层异构GEO–LEO协同计算架构，并建立了精细化的两级波束通信资源分配框架和动态排队模型（Dynamic Queueing Model, DQM）。在此基础上，将任务卸载与资源分配的联合优化问题形式化为大规模混合整数非线性规划（MINLP）。为求解该NP难题，研究人员提出了一种名为G2DRL的创新分层框架，融合了图神经网络（GNN）增强的博弈论方法用于离散卸载决策，以及GNN增强的深度强化学习（DRL）用于连续资源优化。仿真结果表明，G2DRL在总系统成本和任务完成率上均显著优于当前最先进的DRL基线，并展现出更优的收敛稳定性。该研究为动态卫星边缘计算场景下的高效资源管理提供了新范式，论文发表在《Future Internet》。

**3. 关键技术方法**
研究人员主要采用了以下关键技术方法：
- **图神经网络（GNN）**：使用门控图卷积网络（GatedGCN）对动态网络拓扑进行建模，将节点（用户、LEO卫星、GEO卫星、云服务器）及其连接关系编码为异构图，输出节点嵌入矩阵，用于感知全局网络状态和负载模式。
- **博弈论**：将多用户卸载问题建模为非合作博弈，每个用户依据其他用户的策略，基于GNN嵌入的代价估计器选择效用最大化的卸载路径，通过最佳响应动力学（Best Response Dynamics, BRD）迭代求解纯策略纳什均衡（PSNE）。
- **深度强化学习（DRL）**：采用信任区域策略优化（Trust Region Policy Optimization, TRPO）算法，在宏观卸载决策确定后，连续优化通信带宽、发射功率和计算频率分配，以最小化系统加权成本。
- **仿真平台**：基于StarPerf构建，模拟包含5颗LEO卫星、1颗GEO卫星、5个近地云服务器、1个远程云服务器和30个地面用户的动态卫星网络环境，任务分为延迟敏感型和计算密集型（比例8:2），考察不同负载和资源配置下的性能。

**4. 研究结果**

**4.1 收敛性能**
图3展示了训练过程中G2DRL与多种基线（PPO、TD3、SAC、DDPG、TRPO、GDRL）的收敛曲线。G2DRL的奖励曲线从近零开始，约在1000个episode后稳定于平均奖励2.0左右；而TRPO和SAC需超过4000个episode才能收敛到约1.5，其他端到端算法收敛值更低。G2DRL与无GNN的GDRL对比表明，GNN模块显著提升了学习效率和最终策略质量。

**4.2 可扩展性：不同用户数**
图4和图5展示了随着每波束区域用户数增加（10~50）的性能变化。所有算法的性能均下降，但G2DRL的任务成功率始终最高（图4），且平均延迟（图5a）和平均能量（图5b）均为最低，增长速率最慢。G2DRL采用博弈论分布式决策，曲线平滑，而DDPG和PPO等基线因负载均衡行为出现非单调波动。

**4.3 不同任务数据大小**
图6展示了平均任务数据大小（0.5~2.5 MB）对性能的影响。随着任务数据增大，所有算法延迟和能量上升，但G2DRL在所有场景下保持最佳性能，且与次优算法的差距在高负载下显著扩大，证明其在激烈资源竞争下仍能有效联合优化延迟与能量。

**4.4 计算资源敏感性**
图7~图9分别改变LEO、GEO和近地云服务器的计算能力（1~5 GHz级别）。增加任一计算节点的容量均降低平均延迟，但G2DRL的延迟降低并未以能量增加为代价（图7b、8b、9b），平均能量反而低于基线。这是因为GNN全局感知使TRPO代理能精确分配计算频率以满足延迟约束，避免因过度分配CPU导致能量非线性增长。

**4.5 通信资源权衡**
图10展示了不同带宽（5~30 MHz）和发射功率（5~20 W）下的平均延迟与能量。带宽对降低延迟起主导作用，而功率贡献有限；能量主要由功率决定。G2DRL通过利用全局队列状态，避免不必要的功率提升，在高带宽、低功率区域实现能效平衡。

**5. 讨论与结论**
讨论部分强调了G2DRL框架通过将NP-hard MINLP分解为可处理的子问题，有效解决了异构卫星网络中复杂耦合的卸载与资源分配问题。未来工作将引入可解释人工智能（XAI）分析GNN的决策依据，细化云服务器、GEO和LEO节点间的资源划分以提供差异化服务质量（QoS）保证，并设计抗干扰和抗窃听方案保障多用户数据传输隐私。研究结论翻译如下：
**结论**：本文建立了一种GEO-LEO协同的层次化异构卫星边缘计算架构，结合两级波束通信资源分配框架和动态排队模型（DQM）。为求解延迟与能量约束下联合卸载决策与资源分配引发的大规模MINLP优化挑战，提出了一种创新性G2DRL框架，该框架协同整合了GNN增强的博弈论方法用于战略卸载决策以及GNN增强的深度强化学习用于自适应资源优化，有效将NP-hard问题分解为可管理的子问题，同时在动态卫星网络中确保优越性能。

联系信箱：

粤ICP备09063491号

热点排行