可再生能源不确定性下用于节能与可持续边缘计算的自适应CPU频率缩放

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Science and Technology, an International Journal》：Adaptive CPU frequency scaling for energy-efficient and sustainable edge computing under renewable energy uncertainty

【字体：大中小】 时间：2026年04月07日 来源：Engineering Science and Technology, an International Journal 5.1

编辑推荐：

　　可再生能源（Renewable Energy, RE）来源固有的波动性与间歇性，对依赖边缘服务器（Edge Server, ES）和自适应中央处理器（Central Processing Unit, CPU）供能的高效、可持续物联网（Internet of T

可再生能源（Renewable Energy, RE）来源固有的波动性与间歇性，对依赖边缘服务器（Edge Server, ES）和自适应中央处理器（Central Processing Unit, CPU）供能的高效、可持续物联网（Internet of Things, IoT）生态系统构成了重大挑战。尽管可持续边缘计算（Sustainable Edge Computing, SEC）需要对执行时延进行优化，但不准确的动态能量预测与次优的离线CPU频率调整，仍会导致服务质量下降和能源成本上升。传统凸优化技术，如基于牛顿法（Newton）或Lambert方法，虽然对静态、确定性CPU频率调节有效，但难以刻画RE供给与动态工作负载的随机性和时变行为。因此，提升SEC性能需要一种更具自适应性的机制，以便在能源可用性不确定条件下实现实时CPU频率控制。

为克服这一局限，本文将凸优化与双重深度Q网络（Double Deep Q-Network, DDQN）框架相结合。DDQN智能体通过将CPU控制问题表述为随机马尔可夫决策过程，使CPU频率缩放、计算时延与能效得到联合优化，从而能够在能量约束下实现动态频率调整与执行时间优化。通过与动态环境的实时交互，DDQN智能体学习近似最优的频率调整策略，自适应平衡计算时延、能量消耗与RE可用性，因此能够获得传统凸优化方法难以达到的系统稳定性与性能水平。仿真结果表明，所提出的DDQN策略可将预测误差降低35%，并在1.8 GHz处实现更低能量-时延乘积下的最优平衡。通过依据波动的能源可用性动态调整CPU频率，DDQN智能体提升了储能利用率、CPU吞吐能力以及边缘资源效率。

该文发表于《Engineering Science and Technology, an International Journal》，聚焦可再生能源（Renewable Energy, RE）供给不确定条件下的可持续边缘计算（Sustainable Edge Computing, SEC）资源控制问题。研究背景在于，随着物联网（Internet of Things, IoT）应用规模迅速扩张，大量计算密集型任务被卸载至边缘服务器（Edge Server, ES）执行，移动边缘计算（Mobile Edge Computing, MEC）虽能有效降低终端负担与通信时延，但其能源需求同步上升。传统研究通常假设边缘服务器具备稳定电网支撑或近似无限能源，这一假设难以适用于采用太阳能、风能等可再生能源供电的边缘场景。由于可再生能源具有显著的波动性、间歇性与随机性，边缘CPU频率若仍依赖静态模型或离线调参，容易出现能量预测偏差、频率控制滞后、任务时延升高、服务质量下降及能源浪费等问题，因此有必要开展面向不确定能源环境的自适应CPU频率控制研究。

针对上述问题，研究人员构建了一个结合解析优化与深度强化学习（Deep Reinforcement Learning, DRL）的统一框架，用于在能量因果约束与电池容量约束下实现ES中央处理器（Central Processing Unit, CPU）的动态频率缩放。论文首先从CPU动态功耗与频率之间的立方关系出发，建立边缘服务器在能量采集（Energy Harvesting, EH）场景下的优化模型，并以最大化计算能力或最小化执行时延为目标进行形式化描述。在此基础上，研究人员提出两层求解思路：一方面利用凸优化、拉格朗日乘子与Lambert W函数构建离线近似最优解，为稳态条件下的频率决策提供解析基线；另一方面，将系统进一步建模为半马尔可夫决策过程（Semi-Markov Decision Process, SMDP），并引入双重深度Q网络（Double Deep Q-Network, DDQN）实现事件驱动、面向实时环境变化的在线控制。研究结论表明，该框架能够在可再生能源波动和任务负载随机变化条件下，自适应协调计算时延、能量消耗与储能状态，相较传统凸优化方法取得更低预测误差、更优能量-时延折中和更高资源利用效率。

从研究意义看，该工作一方面扩展了SEC领域中CPU频率调控问题的求解范式，将解析优化与学习型控制结合起来，克服了传统离线方法难以处理随机、非平稳环境的局限；另一方面为可再生能源驱动边缘服务器的实时资源管理提供了方法论基础，对低碳边缘基础设施建设、绿色IoT系统部署以及面向6G场景的高能效边缘智能具有现实价值。论文的仿真结果显示，DDQN策略在动态环境中可将预测误差降低35%，在约1.8 GHz附近实现更优的能量-时延乘积，并增强储能利用、CPU吞吐与整体边缘资源效率，说明所提方法兼具理论合理性与工程可行性。

在技术方法方面，研究人员首先建立了基于能量采集的SEC系统模型，将CPU动态功耗表示为与频率近似满足立方关系的函数，并在能量因果约束与电池容量约束下构造连续时间与离散时间优化问题。随后采用牛顿法（Newton’s method）、拉格朗日乘子法与Lambert W函数推导离线近优CPU频率。进一步地，将实时控制问题表述为半马尔可夫决策过程（SMDP），把CPU功率、剩余任务数、电池能量、当前频率及Lambert基线频率共同纳入状态空间，再通过双重深度Q网络（DDQN）进行策略学习，并利用目标网络更新、经验回放与奖励塑形实现频率自适应控制。论文未使用特定应用数据集，而是基于既有MEC/SEC流量模型与可再生能源轨迹开展可复现实验仿真。

以下结合论文主体结构，对其研究结果进行浓缩解读。

1. Introduction
引言部分首先指出，IoT应用的复杂度持续提升，使终端设备本地处理能力和电池容量难以满足需求，因此MEC成为支撑低时延、实时分析和智能服务的重要基础设施。研究人员进一步强调，当边缘服务器采用可再生能源供电时，系统面临双重挑战：其一，任务到达与计算需求具有随机性；其二，太阳能和风能等能源输入具有显著时变特征。现有工作虽讨论过任务卸载、CPU频率调节和能量采集，但大多依赖确定性或离线优化模型，难以适应实时场景。基于此，论文提出以DDQN为核心的自适应频率缩放框架，通过SMDP表述事件驱动决策过程，并引入Lambert W离线解作为学习基线，以改善CPU频率控制的精度与鲁棒性。

1.1. Related works
相关工作部分系统梳理了SEC、CPU频率缩放、任务卸载与DRL在边缘计算中的研究进展。研究人员指出，已有方法主要存在三类缺口：其一，离线解析方法在实时可再生能源不确定性下失效；其二，部分在线方法假定边缘侧能源充足，或仅关注任务卸载而未联合优化CPU频率；其三，缺乏同时统一随机RE、实时CPU频率适配与电池约束的完整框架。基于此，论文将自身定位为一种兼顾解析最优性与在线适应性的综合方案。

2. System model
系统模型部分构建了由IoT设备与边缘服务器组成的SEC网络架构。研究人员设定ES可从太阳能、风能等环境能源中收集能量，并通过储能电池缓存。模型中，CPU动态功耗表示为ρ_cpu=kf³(τ)，表征频率提升带来的功耗急剧增长。通过能量因果约束与电池容量约束，系统被限制为任意时刻累计消耗能量不能超过累计收集能量，且剩余能量不能超出最大储能上限。该模型为后续优化奠定了物理约束基础，并明确了SEC中计算性能与可持续供能之间的耦合关系。

3. Problem formulation
问题建模部分从边缘服务器计算能力与CPU时钟频率的线性关系出发，建立了以总计算能力最大化和执行时间最小化为目标的优化问题。
3.1. Power estimation and maximization
在功率估计与最大化部分，研究人员依据CMOS电路理论，将动态功耗写为P_dyn=σC_LV²f，并结合动态电压频率调整（Dynamic Voltage and Frequency Scaling, DVFS）下电压与频率近似线性关系，推得功耗与频率的立方关系。该建模说明CPU频率提升虽然能增强计算吞吐，但会显著加剧能量消耗，因此需要优化控制。
3.2. Optimization problem formulation
在优化问题表述中，研究人员将CPU功率分配定义为控制变量，在满足能量因果、电池容量、最大频率及工作负载需求等条件下，最大化时间窗口内的总计算能力，或等价地最小化给定任务的执行时延。该部分清晰揭示了SEC中的核心权衡，即如何在有限、波动能源条件下维持计算性能。
3.3. Discrete-time formulation
为支持数值求解，论文将连续时间问题离散化，假设每个时间槽内能量输入近似恒定，由此得到离散优化问题P2。该离散化形式为后续解析求解和学习算法设计提供了统一表达。

4. Problem solution
问题求解部分给出了离线解析优化框架。研究人员使用拉格朗日函数将目标项与约束项融合，并通过一阶导数与二阶导数分析说明目标函数在功率变量上具有凹性，因此可利用牛顿法求取满足约束的驻点解。
在此基础上，论文进一步引入Lambert W函数，处理含有频率多项式项与指数项耦合的稳态最优频率求解问题。该方法可在已知或近似稳定能量条件下，为CPU频率提供收敛的近最优解析解。研究人员同时指出，该离线方案虽然具有良好理论性质，但在随机、时变EH环境中适应性不足、收敛较慢，不适合实时处理，因此需要引入在线学习机制。

5. Semi-Markov decision process
这一部分是全文的核心方法学贡献。研究人员考虑到ES调度是由任务到达或调度需求触发的，因而采用SMDP而非固定时隙MDP建模，使状态只在“有意义事件”发生时更新，更符合边缘系统实际运行特征。
5.1. Integration of Lambert W solution with DDQN framework
该小节说明Lambert W离线解在DDQN中承担三重作用：其一，用作目标网络的暖启动初值，提高训练收敛速度；其二，用于限制动作空间，缩小可选频率范围，提升采样效率；其三，通过奖励塑形引导学习策略在稳态条件下靠近解析最优区域，同时保留对随机扰动的修正能力。由此，离线解析与在线学习并非彼此替代，而是形成分层协同。
5.2. Cost function for state-action
研究人员将系统状态定义为CPU动态功耗、剩余任务数、电池能量、当前频率以及Lambert基线频率的组合，并将动作设计为在可用能量约束下的CPU控制决策。奖励函数同时考虑任务处理收益、能量开销以及与Lambert最优频率的偏差，从而把能量效率、时延性能和训练稳定性统一到同一目标中。
5.3. The execution level
该部分进一步给出用于判定电池容量约束可行性的约束违反函数，并讨论在动作空间较大情况下直接穷举求解的复杂性，说明采用DDQN近似状态-动作价值函数（Q-value）的必要性。
5.4. Training DDQN to minimize the loss
训练部分通过经验回放与目标网络更新构建DDQN学习过程。研究人员利用双网络机制缓解Q值高估问题，并通过损失函数最小化不断更新参数，使智能体在随机能源与动态任务环境中学习近似最优CPU频率控制策略。论文特别强调，DDQN相较传统DQN更适用于该类受随机能源驱动的控制问题。

6. Simulation results
仿真结果部分从多个维度验证了所提方法的有效性。研究人员在PyTorch-Gym环境中模拟单个可持续边缘服务器服务10个逻辑IoT设备的场景，并设置电池容量、学习率、经验回放、折扣因子等参数进行对比分析。
首先，CPU frequency versus time结果表明，实时DDQN频率在约1.2–2.5 GHz范围内波动，能够根据负载和能量状态灵活调节；相比之下，离线方法频率集中在约1.8 GHz附近，更平滑但缺乏对瞬时变化的响应能力，导致平均能耗更高。
其次，Total reward versus time steps显示，在不同电池能量水平下，DDQN均能逐步收敛，其中较高电池容量对应更积极的频率探索，约在1000个时间步附近达到稳定，体现出较快收敛性能。
在CPU clock frequency versus energy storage capacity for different battery energy levels中，研究人员展示了电池能量与储能状态对最优频率决策的影响。结果说明频率并非单调追求最高，而是在能量因果与容量约束下由策略自适应选择，以平衡性能与能效。
在Energy consumption versus processing latency CPU中，论文比较了不同频率下能量消耗与处理时延的关系。较高频率虽可将时延降至4.3 ms，但能耗显著上升；DDQN通过动态调节在约1.8 GHz实现较优平衡，并将预测误差降低35%。
CPU frequency scaling during the training process结果表明，DDQN在训练推进过程中逐渐稳定频率控制，相较参考方法更能根据预测误差自适应修正。
Execution latency versus EH power进一步显示，在低EH功率如0.4×10^-4 W条件下，DDQN将执行时延由23 ms降至15 ms，降幅约34%，且方差更小，说明其在随机能源条件下具有更强稳定性。
Optimal CPU frequency versus weight factor与Battery capacity versus time结果共同说明，DDQN能够在不同权重因子和电池状态下维持更合理的频率与能量调度，避免功率密集型决策导致储能快速耗尽。
Average performance and total EC with offloading related to CPU frequency显示，性能随频率近线性提高，但总能耗快速上升，DDQN在约2.0 GHz附近实现性能与能耗的更优折中。
Energy consumption related to CPU frequency及与PPO、A3C、SAC的对比分析进一步表明，DDQN在收敛速度、计算开销与长期平均奖励方面优于其他主流DRL方法，更适用于离散动作、资源受限的边缘IoT环境。
Energy consumption versus time steps与Computational efficiency versus prediction error则证明，当预测误差增大时，所有方法计算效率均下降，但DDQN受影响最小，说明其通过损失函数优化与目标网络更新有效增强了鲁棒性。

总体讨论部分显示，该研究的关键创新在于将稳态解析优化与动态强化学习有机结合：Lambert W解为频率控制提供物理可解释的解析基线，SMDP-DDQN则负责应对现实环境中的能源波动和任务随机性。这种“离线近优+在线自适应”的协同机制，使系统既继承了解析模型的结构性知识，又获得了面对不确定环境时的实时决策能力。仿真结果一贯表明，DDQN在预测误差、执行时延、能量-时延折中、储能利用率、CPU吞吐及训练稳定性等方面均优于传统离线凸优化策略和部分现有DRL基线方法，验证了所提框架在SEC中的有效性。

结论部分可译为：本研究系统考察了面向能量采集边缘服务器的CPU频率缩放问题，以提升波动性可再生能源条件下的可持续边缘计算性能。为最大化边缘服务器处理效率，SEC框架需要持续调整CPU时钟频率，以在计算时延与能量消耗之间实现最优权衡。传统凸优化方法，如牛顿法或基于Lambert的技术，虽然适用于确定性和静态优化，但在由可再生能源波动和动态工作负载引起的非凸、随机运行条件下效率不足。为克服这些局限，所提出的基于DDQN的方法提供了一种更具自适应性的解决方案，能够通过与系统环境的实时交互进行学习。通过融合凸优化原理与强化学习，DDQN有效应对了非凸优化挑战，能够依据不同能量采集功率水平动态调整CPU频率，在维持能效的同时降低执行时延。DDQN还通过优化目标网络并在训练过程中最小化预测误差，提高了可再生能源利用率，进而改善CPU利用率与储能平衡。仿真结果验证了所提出DDQN驱动系统可通过动态CPU频率缩放显著降低预测误差。与传统凸优化方法相比，该方法还实现了更高的储能效率，并在能量消耗与计算时延之间提供了更优权衡。未来工作将把所提CPU频率控制方案扩展至区块链辅助边缘环境，并在物理SEC测试平台上开展真实实验验证。

联系信箱：

粤ICP备09063491号

热点排行