移动边缘计算(MEC)下带合格性约束(Eligibility Constraints)的负载感知任务卸载(Task Offloading)方法

《Future Internet》：A Load-Aware Task Offloading Method for Mobile Edge Computing Under Eligibility Constraints

【字体：大中小】 时间：2026年06月11日 来源：Future Internet 3.6

编辑推荐：

　　移动边缘计算(Mobile Edge Computing, MEC)允许将计算密集且时延敏感的任务从移动终端卸载至邻近的边缘服务器。现有多数MEC任务卸载研究将卸载建模为在固定或完全可用候选服务器集合上的选择问题，这在具有任务—节点合格性约束(Eligibil

移动边缘计算(Mobile Edge Computing, MEC)允许将计算密集且时延敏感的任务从移动终端卸载至邻近的边缘服务器。现有多数MEC任务卸载研究将卸载建模为在固定或完全可用候选服务器集合上的选择问题，这在具有任务—节点合格性约束(Eligibility Constraints)的异构MEC场景中较为局限。在此类约束下，仅当任务属性、业务需求、链路条件及节点状态共同满足相应合格条件时，任务方可由某边缘服务器处理。因此可行动作集随时间变化，且卸载决策进一步与边缘节点侧排队竞争及长期负载演化相耦合。为解决该问题，研究人员提出了面向资源调度协调(Resource-oriented Scheduling Coordination, RoSCo)，一种面向合格性约束MEC系统的带负载感知的任务卸载方法，具备调度级约束处理能力。本文中调度协调(Scheduling Coordination)指联合使用可行动作控制、优先级感知的边缘节点服务次序建模及负载响应式反馈，而非服务器间通信、任务聚合、联邦模型聚合或分布式协调协议。RoSCo构建动态可行动作集，应用合格性感知的动作掩码(Eligibility-aware Action Masking)排除不可行卸载动作，引入优先级感知的边缘节点服务次序信息刻画异构任务间排队竞争，并设计负载响应式奖励以引导拥塞缓解与负载均衡。采用对决双重深度Q网络(Dueling Double Deep Q-Network, D3QN)作为价值学习骨干，方法论贡献主要在于将任务特定可行动作控制、优先级感知节点侧排队信息及负载响应式反馈嵌入约束卸载过程。仿真结果表明，RoSCo在维持有竞争力的任务完成时延与能耗的同时，降低了任务丢弃率与边缘节点负载不均衡度，尤其在高负载及稀疏合格性条件下表现更优。

论文解读：《A Load-Aware Task Offloading Method for Mobile Edge Computing Under Eligibility Constraints》

一、研究背景与问题提出

随着物联网(IoT)及移动智能应用的发展，移动终端产生大量计算密集且时延敏感的任务（如实景推理、在线决策等）。受限于终端算力、电池与散热，本地执行效率低，移动边缘计算(MEC)通过将计算下沉至靠近用户的边缘服务器(Edge Server)可有效降低时延与资源压力。现有基于深度强化学习(DRL)的MEC任务卸载研究大多假设候选边缘服务器集合固定或全局可用，未考虑任务—节点合格性约束(Eligibility Constraint)：即某任务能否被某边缘节点处理，还取决于任务属性（如所需服务类型、软件环境）、服务缓存可用性、链路条件及节点当前队列状态。若不满足合格条件，该节点根本无法接受此任务（非高代价而系不可执行）。此类约束导致各任务的可行动作集(Feasible Action Set)动态变化且互不相同，合格节点少时任务被集中至少数边缘节点，加剧边缘侧排队竞争(Queue Competition)与负载不均衡，影响长期系统性能。现有DRL方法多在预定义固定动作空间学习，未将动态可行集构建嵌入策略选择与价值更新过程，也较少显式建模边缘节点侧异构任务优先级服务次序(Priority-aware Service Order)及负载演化反馈。因此，研究人员开展了面向合格性约束MEC系统的负载感知任务卸载方法RoSCo(Resource-oriented Scheduling Coordination)的研究，发表于《Future Internet》。研究结论表明：通过联合可行动作控制、优先级感知排队信息及负载响应式奖励设计，RoSCo能有效避免不可行动作选择，缓解边缘热点拥塞，在高负载及稀疏合格性场景下较基线方法显著降低任务丢弃率(Task Drop Rate)与负载变异系数(Load CV, Coefficient of Variation of edge-node load ratios)，同时保持有竞争力的平均完成时延与能耗。

二、主要关键技术方法概述

研究人员构建含多移动终端与多边缘节点的异构MEC离散时间仿真环境，任务具输入数据量、所需CPU周期数、服务类型标签及截止时限(Deadline)；采用正交频复用上行接入模型。建立任务—节点合格性矩阵（任务属性类别与节点可服务类型匹配）并结合节点队列容量约束动态生成每任务可行动作集（含本地执行Local Execution兜底选项{0}）。设计合格性感知动作掩码(Eligibility-aware Action Masking)将不可行动作置?∞使策略仅从可行集选值；依任务属性、数据量及紧急度计算优先级分数(Priority Score)，按非抢占优先级队列(Non-preemptive Priority Queue)建模边缘节点服务次序，并将待服务前的高优先级积压工作量(Higher-priority Pending Workload)纳入状态表征；奖励函数由归一化时延惩罚、归一化能耗惩罚、任务按期完成奖励及二次型系统级负载惩罚(Load Penalty, 侧重抑制重负载节点积压)构成。采用对决双重深度Q网络(Dueling Double Deep Q-Network, D³

三、研究结果

3.1 系统模型与问题建模(System Model and Problem Formulation)

研究人员定义终端集??、边缘节点集?、执行选项集??={0}∪?（0为本地执行）。任务τ_i^t={D_i,C_i,κ_i,T_i^max}，上行速率R_i,e^t=B·log₂(1+P_i|h_i,e^t|²/N₀)。合格性关系ξ_i,e=1 iff κ_i∈??_e（??_e为节点e可服务任务类型集）且节点排队积压W_e^t< />_e^max，由此构造动态可行集??_i^t={0}∪{e∈?|ξ_i,e^t=1,W_e^t< />_e^max}。本地执行时延T_local=C_i/f_i，能耗E_local=ε_iC_i；边缘卸载时延含传输(D_i/R_i,e^t)、优先级感知等待时延(T_wait,i,e^t依赖高优先级积压L_i,e^t=∑_{j∈Q_e^t,Prio(j)>Prio(i)}?_j)及计算(C_i/F_e)。优化目标为长期折扣累积代价最小化（含归一化时延、归一化能耗、负载惩罚及任务完成收益），约束含唯一分配、合格性、队列容量及二元变量。问题具状态依赖离散可行域、时变耦合队列演化，建模为马尔可夫决策过程(MDP)。

3.2 方法设计(Method Design)

RoSCo框架为集中式控制器收集任务与节点状态→构建状态向量s_t=[任务属性特征, 各边上/下行速率, 各边总队列负载, 各边当前任务将遇高优先级积压, 可行动作掩码]，生成掩码M_t(a)=1 if a∈??_i^telse ?∞；按ε-greedy从掩码后Q值选动作；环境按优先级次序更新节点队列；奖励r_t=?(ω_d·T?_i+ω_e·?_i)＋ω_c·Ⅰ{T_i≤T_i^max}?ω_l·Φ(load)，Φ为二次负载惩罚。D³QN输出Q(s,a)=V(s)+A(s,a)?mean_{a'∈??_s}A(s,a')，目标动作a'=argmax_{a'∈??_s'}Q_main(s',a')，目标值y=r+γ·Q_target(s',a')，损失为均方误差TD-error。算法在每步重构??_i^t与??_i^t+1分别用于动作选择与目标评估。

3.3 实验结果(Experimental Results and Discussion)

在变任务到达率(Arrival Rate)与变终端规模(Terminal Scale)场景下，RoSCo相较最佳基线平均降低任务丢弃率约4.67%~5.00%、平均时延约3.22%~3.69%、单任务能耗约1.12%~1.16%、负载不均衡Load CV约8.95%~9.62%；高负载(420 tasks/slot)及大终端数(80台)时仍保持优势，尤以免丢弃率与Load CV改善明显。训练收敛曲线显示RoSCo后期归一化回报高于CA-RL约6.40%。机制验证：随合格性比例(Eligibility Ratio ρ)降低，RoSCo掩码前偏好不可行动作概率较DDQN与CA-RL分别降低93.80%与52.39%；引入优先级感知排队信息后高优先级任务平均等待时延较CA-RL与PS-RL分别降低8.17%与3.20%。消融实验表明移除动作约束使丢弃率、时延、Load CV分别升14.87%、12.95%、26.27%；移除优先级感知服务次序使平均时延、能耗、高优任务时延分别升8.51%、5.20%、7.98%；移除负载响应式奖励使丢弃率、时延、Load CV分别升9.69%、6.10%、20.72%。

四、讨论与结论总结

研究人员指出，传统MEC卸载假设固定候选服务器集，忽视任务—节点合格性约束导致策略可能选不可接受节点且忽略合格性引发的任务集中效应。本文构建动态可行动作集并嵌入D³QN学习与目标评估全流程，联合优先级感知边缘节点服务次序状态表征及负载响应式奖励，形成RoSCo方法。仿真验证其在任务丢弃率控制、负载均衡及高优先级任务时延方面优于对比基线，尤其在稀疏合格性与高负载条件下。局限含当前为仿真环境评估、未考虑任务间依赖(Workflow)及分布式多智能体扩展，后续拟用真实轨迹/试验床验证并拓展至多智能体不完全信息场景。

结论译文：

本文研究了带任务—节点合格性约束的异构MEC系统任务卸载问题。不同于假定固定或全可用候选服务器集的常规MEC卸载研究，所考虑场景要求各任务仅被分配至满足其服务需求、链路条件及节点状态约束的执行位置，卸载决策因而与动态可行动作集、边缘节点排队竞争及长期边缘服务器负载演化相耦合。为此提出RoSCo——一种融合合格性感知动作控制、优先级感知服务次序建模及负载响应式反馈的负载感知任务卸载方法。该方法为每个到达任务构建动态可行动作集并应用合格性感知动作掩码排除不可行卸载动作，引入优先级感知边缘节点服务次序信息表征异构任务间排队与服务次序竞争，设计负载响应式奖励引导学习过程抑制拥塞并均衡负载。采用D³QN为价值学习骨干，在当期动作选择及目标动作评估中均考量可行动作集。仿真结果表明，相比代表性基线方法，RoSCo在任务丢弃率、任务完成时延、能耗及边缘服务器负载均衡间取得更稳定折衷，该优势在高负载及稀疏合格性条件（可行执行位置受限且边缘节点侧排队竞争显著）下尤为突出。消融结果表明合格性感知动作掩码、优先级感知服务次序建模及负载响应式奖励分别贡献于动作可行性控制、节点侧服务次序表征及长期负载调节。

热点排行