《Applied Energy》:Energy-aware job scheduling for green data centers under uncertainty: A structure-compressed spectral risk control approach
编辑推荐:
随着电力支出成为绿色数据中心(Green Data Centers, GDCs)运营成本的主导组成部分,能量感知作业调度为降低开支提供了有效手段。然而,实际调度仍受具有结构冗余的依赖型工作负载以及环境不确定性的阻碍。为应对这些挑战,本研究提出了一种面向GDCs
随着电力支出成为绿色数据中心(Green Data Centers, GDCs)运营成本的主导组成部分,能量感知作业调度为降低开支提供了有效手段。然而,实际调度仍受具有结构冗余的依赖型工作负载以及环境不确定性的阻碍。为应对这些挑战,本研究提出了一种面向GDCs调度的结构压缩谱风险管控方法,称为SCS-RC。首先,调度问题被建模为马尔可夫决策过程(Markov Decision Process, MDP),该过程对异构作业及其内部任务依赖性进行建模,同时通过功率使用效率(Power Usage Effectiveness, PUE)在时间变化的电价和温度条件下捕捉能耗。为在决策前缓解冗余,研究人员提出了任务间相似性检测与合并算法来压缩任务依赖图,通过识别并合并相似子结构以形成紧凑的任务图。随后,采用全参数化分位数函数(Fully Parameterized Quantile Function, FQF),通过自适应分位点分数估计每个状态-动作对的回报分布,以适应不确定性下偏斜和长尾的回报。为限制不利尾部暴露,学习得到的分位点进一步通过谱风险度量(Spectral Risk Measures, SRM)进行聚合以指导动作选择。案例研究表明,与代表性基准方法相比,SCS-RC提高了利润稳定性并降低了能耗,同时在不断增加的作业到达规模下实现了更可靠的训练收敛和高效的在线推理。
随着人工智能应用的快速增长,绿色数据中心(GDCs)正 certify 工作负载日益加重、电力消耗持续攀升的形势,能源管理已成为其可持续运营的关键议题。GDCs的实际运营成本不仅受计算需求影响,还受到可再生能源并网引起的实时电价波动以及影响冷却效率的热条件等因素制约。在此背景下,工作负载调度对GDCs尤为重要,它直接在作业级计算需求与电价、可再生能源可用性及热条件之间进行协调。然而,实现这种灵活性并非易事,实际工作负载往往涉及相互依赖的任务、重复出现的计算子结构以及多种不确定性来源。因此,设计有效降低GDCs能源成本的调度策略至关重要。
现有GDCs作业调度方法主要分为两类:数学优化方法和基于机器学习(Machine Learning, ML)的方法。数学优化方法方面,Liu等建立了时空耦合的两阶段协同优化模型,Dong等构建了嵌入条件风险价值(Conditional Value at Risk, CVaR)的两阶段随机协同规划问题,Seyyedi等提出了利用数据中心负荷作为虚拟电池的鲁棒优化时空负荷管理方法。但数学优化方法受限于小规模实例,而基于ML的方法更适合动态环境中的在线决策策略学习。Wu等提出了碳约束调度和配额采购的两阶段联合优化与强化学习(Reinforcement Learning, RL)框架,Jayanetti等开发了优化分布式云数据中心可再生能源利用的多智能体深度强化学习框架,Mahbod等提出了动态优化浮动温度设定点的无模型深度强化学习框架,Sun等提出了协作作业调度的隐私保护联邦强化学习方案。
然而,大多数现有基于ML的方法聚焦于确定性作业调度,忽视了直接影响GDCs能源管理的固有不确定性。可再生能源出力和工作负载波动引入偶然不确定性(aleatoric uncertainty),而不完整的模型知识则引发认知不确定性(epistemic uncertainty)。近期,Ding等提出了面向不确定环境下数据中心作业调度的增强分布式强化学习方法,Shi等基于分位数回归深度Q网络(Quantile Regression Deep Q-Network, QR-DQN)开发了适应不确定性的能量感知调度方案。尽管如此,现有方法仍忽视了真实GDCs工作负载的冗余性和潜在结构,限制了建模保真度。GDCs工作负载常包含重复任务,如推荐系统的特征提取和在线广告的点击率预测等,这些任务虽服务于不同目标,但在数据预处理、特征编码和矩阵计算等阶段具有显著的拓扑相似性。当多个用户在短时间内发起相似的数据分析或模型训练请求时,独立执行将导致冗余计算和不必要的能耗。因此,相似任务应在调度前跨作业合并。
任务合并后,调度器仍面临来自作业到达、服务器温度变化和电价波动的不确定性。为捕捉这些不确定性,分布式强化学习学习回报分布,支持不确定性引导的调度。近期研究 increasingly 关注具有自适应分位点分数的分布式强化学习。一类工作通过采样分位点分数学习隐式分位数函数;另一类工作显式学习自适应分位点分数,以更有效地关注回报分布的关键区域。Yang等提出的全参数化分位数函数(FQF)通过双网络架构联合参数化分位点分数和分位点数值。然而,精细的回报分布建模本身并不必然产生风险感知调度策略。GDCs运营中,可再生能源出力骤降等尾部事件虽概率低但成本高昂,会放大利润波动并增加服务质量(Quality of Service, QoS)违规风险。条件风险价值虽被广泛用于量化尾部期望损失,但单一CVaR准则可能无法完全捕捉整个回报分布的复杂风险轮廓。近期,风险敏感分布式强化学习利用具有风险谱的谱风险度量,将SRM表达为多个风险水平上CVaR的凸组合,聚合回报分布并为分布式值函数提供更灵活的风险偏好规范。
综合以上分析,本研究提出面向GDCs调度的结构压缩谱风险管控方法SCS-RC,主要贡献包括:建立考虑作业-任务层次关系、异构计算需求和QoS要求的不确定环境下GDCs能量感知作业调度模型,通过功率使用效率(PUE)刻画服务器温度变化对冷却负荷和能耗的影响;开发任务间相似性检测与合并(Inter-Task Similarity Detection and Merging, ITSDM)算法,在在线调度前结构性压缩同时到达的工作负载,检测任务相似性并提取相似与独特结构合并为紧凑表示;提出结合自适应分位数学习与谱风险控制的分布式强化学习方法FQF-SRM,以SRM加权学习得到的分位点指导动作选择,并引入基于回报分布方差的探索奖励以增强认知不确定性下的学习效率。
本研究采用的技术方法主要包括以下方面。研究人员将调度问题建模为MDP,状态空间涵盖时间信息、作业特征(到达时间、截止期限、任务数量、优先级)、服务器状态(CPU利用率、内存使用率、温度)、电价及可再生能源出力;动作空间定义为新到达作业的调度决策及服务器工作模式选择。为压缩工作负载结构,ITSDM算法基于编辑距离度量任务间相似性,通过子图同构检测识别相似子结构,合并重复计算节点以生成紧凑任务图。在回报分布建模方面,采用FQF替代传统固定均匀分位点方法,通过分位点提议网络和分位点价值网络分别学习自适应分位点分数及对应分位点数值,以更好地捕捉分布偏移。风险管控层面,引入谱风险度量将学习得到的多个分位点按风险谱权重聚合为风险调整后的动作价值,并基于回报分布方差设计探索奖励以区分认知不确定性与偶然不确定性。
案例研究部分,研究人员在模拟GDCs环境中评估SCS-RC的性能,并与RA-DRL、QR-SRM、FQF及QR-DQN等基准方法进行对比。结果表明:SCS-RC在利润稳定性和能耗降低方面优于代表性基准方法,同时实现了更可靠的训练收敛;在线推理效率方面,SCS-RC在递增的作业到达规模下保持高效;消融实验量化了ITSDM和SRM各自的贡献,验证了两组件的有效性。此外,研究人员还评估了方法在大规模设置下的可扩展性。
讨论与结论部分,研究人员总结了SCS-RC方法的核心优势:ITSDM算法通过结构压缩降低了决策复杂度,避免了冗余计算带来的不必要的能源消耗;FQF-SRM框架通过自适应分位数学习准确刻画了不确定环境下的回报分布,并借助谱风险度量有效控制了尾部风险。本研究的结论指出,所提出的SCS-RC方法为不确定环境下绿色数据中心的能量感知作业调度提供了一种统一的框架,该框架整合了工作负载结构压缩、温度依赖性能耗建模以及尾部风险管控,能够在降低运营成本的同时保障服务质量和系统可靠性。未来工作将探索更复杂的动态环境下的在线自适应策略以及多数据中心协同调度场景。