AI推理能耗新视角:生产级部署下的真实能耗评估与能效路径

《Joule》:Energy use of AI inference, efficiency pathways, and test-time scaling

【字体: 时间:2026年04月24日 来源:Joule 38.6

编辑推荐:

  为解决AI推理单次查询能耗(Wh/query)估算差异大、缺乏生产级场景考量的问题,微软团队基于token吞吐量、节点功率及系统开销构建了自底向上评估框架。研究表明,前沿模型(>200B)在H100节点上的中位能耗仅为0.31 Wh/query,远低于非生产环境估算,且长推理(test-time scaling)能耗呈线性增长,通过模型、服务系统及硬件协同优化可实现8–20倍的能效提升。

  

背景:被高估的AI“电老虎”与缺失的生产级视角

当ChatGPT以亿级用户规模运行时,一个被长期忽视的问题浮出水面:一次AI对话到底要消耗多少电?这不仅关乎科技巨头的电费账单,更是全球能源政策与气候目标的焦点。然而,学术界与工业界对此的估算长期存在数量级的巨大分歧——从“微不足道”的0.3 Wh到“触目惊心”的2.9 Wh,差异高达近10倍。
这种混乱源于两大“盲区”:一是测量边界模糊,许多研究只盯着GPU的功耗,却忽略了CPU、内存及整个数据中心的基础设施开销(PUE);二是场景失真,大量基准测试是在“温室环境”下进行的(如无并发、无批处理的小规模测试),这严重低估了大规模生产级部署中通过批处理(Batching)和并发(Concurrency)带来的能效红利。此外,随着AI进入“推理时代”,长文本生成、多步推理(Reasoning)及智能体(Agent)工作流日益普及,传统的“平均查询”概念已无法捕捉长尾任务带来的指数级能耗增长。
在此背景下,来自微软研究院的Felipe Oviedo等研究者决心打破这一僵局。他们指出,此前基于非生产环境的估算普遍存在4–20倍的系统性高估。为了给全球AI的能耗规划提供真实基线,团队在《Joule》上发表了这项针对AI推理能耗的精细化研究。

研究方法:构建生产级能耗评估框架

研究者摒弃了简单的“单机实测”,转而构建了一个自底向上(Bottom-up)的蒙特卡洛估计框架,核心基于三个关键变量:Token吞吐量(Tokens/s)节点功率(Pnode系统开销(PUE)。该研究严格模拟了生产级条件,包括稳态服务、高并发及批处理优化,并针对H100节点及FP8量化等现代硬件配置进行了归一化处理。
研究选取了DeepSeek-R1 671B、Llama 3.1 405B等前沿大模型(>200B参数)作为基准,重点对比了“标准查询”(中位输出300 token)与“测试时扩展(Test-time scaling)查询”(中位输出5000 token)两种极端场景,以揭示长推理对能耗的非线性影响。

结果与发现:重塑AI能耗认知

标准查询能耗:0.31 Wh的“真相”

在模拟生产级部署(H100节点,FP8精度)的条件下,对于参数超过200B的前沿模型,单次查询的中位能耗仅为0.31 Wh(四分位距IQR: 0.16–0.60 Wh)。这一数据与OpenAI首席执行官Sam Altman披露的ChatGPT平均能耗(0.34 Wh)以及Google Gemini Apps的实测数据(0.24 Wh)高度吻合,却远低于IEA等机构基于非生产环境估算的2.25 Wh。
这意味着,在真实的云服务环境中,通过高效的批处理和服务引擎优化,AI推理的边际成本被大幅降低。那些耸人听闻的“AI将耗尽全球电力”的预测,很大程度上是基于过时或失真的实验室数据。

长推理的“能源陷阱”:Test-time Scaling的代价

当AI从“聊天”转向“思考”,能耗规律发生剧变。研究显示,在Test-time scaling场景下(输出长度增加约15倍),单次查询的中位能耗激增至3.91 Wh(IQR: 2.15–7.05 Wh),增幅达13倍。其中,DeepSeek-R1等擅长长推理的模型,单次能耗甚至可达10.6 Wh。
这表明,虽然短对话的能耗可控,但Agentic AI(智能体AI)和复杂推理任务将成为未来数据中心能耗的主要增长极。忽视查询长度的分布,仅报告“平均能耗”,会严重误导基础设施的规划决策。

能效路径:8–20倍的降耗潜力

研究进一步分析了“视线内(Line-of-sight)”的能效提升空间,即通过模型架构(如MoE混合专家模型)、服务软件(推理引擎优化)及下一代硬件(如Blackwell架构)的协同升级,可在现有基础上实现8–20倍的能耗降低
具体而言,通过采用FP8量化(相比BF16/FP16提升1.7倍吞吐)、MoE架构(激活参数更少)以及更高效的解码策略,可以显著缓解长推理带来的能源压力。例如,在数据中心层面,若10%的查询为长推理任务,日能耗将从0.7 GWh飙升至1.7 GWh;但通过上述能效干预,可将其控制在0.8 GWh/day的水平。

结论与展望

这项研究为AI的可持续发展提供了关键的数据基石。它证实了在规模化部署下,AI推理的能耗远低于公众想象,但同时也警告,长推理工作负载(Test-time scaling)是未来能效管理的“灰犀牛”。未来的能耗评估必须告别“温室 benchmark”,转向基于真实分布(Token长度、并发度)的系统级建模。对于政策制定者而言,推动FP8量化、MoE模型架构及高效推理引擎的普及,是平衡AI创新与能源约束的必经之路。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号