AI推理能耗新视角：生产级部署下的真实能耗评估与能效路径

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Joule》：Energy use of AI inference, efficiency pathways, and test-time scaling

【字体：大中小】 时间：2026年04月24日 来源：Joule 38.6

编辑推荐：

　　为解决AI推理单次查询能耗（Wh/query）估算差异大、缺乏生产级场景考量的问题，微软团队基于token吞吐量、节点功率及系统开销构建了自底向上评估框架。研究表明，前沿模型（>200B）在H100节点上的中位能耗仅为0.31 Wh/query，远低于非生产环境估算，且长推理（test-time scaling）能耗呈线性增长，通过模型、服务系统及硬件协同优化可实现8–20倍的能效提升。

背景：被高估的AI“电老虎”与缺失的生产级视角

当ChatGPT以亿级用户规模运行时，一个被长期忽视的问题浮出水面：一次AI对话到底要消耗多少电？这不仅关乎科技巨头的电费账单，更是全球能源政策与气候目标的焦点。然而，学术界与工业界对此的估算长期存在数量级的巨大分歧——从“微不足道”的0.3 Wh到“触目惊心”的2.9 Wh，差异高达近10倍。

这种混乱源于两大“盲区”：一是测量边界模糊，许多研究只盯着GPU的功耗，却忽略了CPU、内存及整个数据中心的基础设施开销（PUE）；二是场景失真，大量基准测试是在“温室环境”下进行的（如无并发、无批处理的小规模测试），这严重低估了大规模生产级部署中通过批处理（Batching）和并发（Concurrency）带来的能效红利。此外，随着AI进入“推理时代”，长文本生成、多步推理（Reasoning）及智能体（Agent）工作流日益普及，传统的“平均查询”概念已无法捕捉长尾任务带来的指数级能耗增长。

在此背景下，来自微软研究院的Felipe Oviedo等研究者决心打破这一僵局。他们指出，此前基于非生产环境的估算普遍存在4–20倍的系统性高估。为了给全球AI的能耗规划提供真实基线，团队在《Joule》上发表了这项针对AI推理能耗的精细化研究。

研究方法：构建生产级能耗评估框架

研究者摒弃了简单的“单机实测”，转而构建了一个自底向上（Bottom-up）的蒙特卡洛估计框架，核心基于三个关键变量：Token吞吐量（Tokens/s）、节点功率（P_node）及系统开销（PUE）。该研究严格模拟了生产级条件，包括稳态服务、高并发及批处理优化，并针对H100节点及FP8量化等现代硬件配置进行了归一化处理。

研究选取了DeepSeek-R1 671B、Llama 3.1 405B等前沿大模型（>200B参数）作为基准，重点对比了“标准查询”（中位输出300 token）与“测试时扩展（Test-time scaling）查询”（中位输出5000 token）两种极端场景，以揭示长推理对能耗的非线性影响。

结果与发现：重塑AI能耗认知

标准查询能耗：0.31 Wh的“真相”

在模拟生产级部署（H100节点，FP8精度）的条件下，对于参数超过200B的前沿模型，单次查询的中位能耗仅为0.31 Wh（四分位距IQR: 0.16–0.60 Wh）。这一数据与OpenAI首席执行官Sam Altman披露的ChatGPT平均能耗（0.34 Wh）以及Google Gemini Apps的实测数据（0.24 Wh）高度吻合，却远低于IEA等机构基于非生产环境估算的2.25 Wh。

这意味着，在真实的云服务环境中，通过高效的批处理和服务引擎优化，AI推理的边际成本被大幅降低。那些耸人听闻的“AI将耗尽全球电力”的预测，很大程度上是基于过时或失真的实验室数据。

长推理的“能源陷阱”：Test-time Scaling的代价

当AI从“聊天”转向“思考”，能耗规律发生剧变。研究显示，在Test-time scaling场景下（输出长度增加约15倍），单次查询的中位能耗激增至3.91 Wh（IQR: 2.15–7.05 Wh），增幅达13倍。其中，DeepSeek-R1等擅长长推理的模型，单次能耗甚至可达10.6 Wh。

这表明，虽然短对话的能耗可控，但Agentic AI（智能体AI）和复杂推理任务将成为未来数据中心能耗的主要增长极。忽视查询长度的分布，仅报告“平均能耗”，会严重误导基础设施的规划决策。

能效路径：8–20倍的降耗潜力

研究进一步分析了“视线内（Line-of-sight）”的能效提升空间，即通过模型架构（如MoE混合专家模型）、服务软件（推理引擎优化）及下一代硬件（如Blackwell架构）的协同升级，可在现有基础上实现8–20倍的能耗降低。

具体而言，通过采用FP8量化（相比BF16/FP16提升1.7倍吞吐）、MoE架构（激活参数更少）以及更高效的解码策略，可以显著缓解长推理带来的能源压力。例如，在数据中心层面，若10%的查询为长推理任务，日能耗将从0.7 GWh飙升至1.7 GWh；但通过上述能效干预，可将其控制在0.8 GWh/day的水平。

结论与展望

这项研究为AI的可持续发展提供了关键的数据基石。它证实了在规模化部署下，AI推理的能耗远低于公众想象，但同时也警告，长推理工作负载（Test-time scaling）是未来能效管理的“灰犀牛”。未来的能耗评估必须告别“温室 benchmark”，转向基于真实分布（Token长度、并发度）的系统级建模。对于政策制定者而言，推动FP8量化、MoE模型架构及高效推理引擎的普及，是平衡AI创新与能源约束的必经之路。

联系信箱：

粤ICP备09063491号