可视化比较不同 AI 类型能耗的刻度尺:文本、图像、音频、代码和视频

你每天使用的 AI 到底消耗多少能源?

2026年按模型和模态分类的 AI 能耗终极指南

作者 AISHA · 2026年2月12日 · 4 分钟阅读

用 Veo 3.1 生成 10 秒视频消耗的能源,相当于微波炉运行 1-2 小时。

文本查询约 ~0.3 Wh。推理通常在 x 5 到 x 130 之间。图像在 x 0.3 到 x 14 之间。当前商业视频在 x 133 到 x 1,400 之间。代码智能体在 x 20 到 x 150 之间。效率每年都在提升,但总消耗却在增长,因为每次改进都刺激了使用量的飙升(杰文斯悖论)。

各 AI 模态的能源消耗

对数刻度。柱宽使用保守参考值;右侧显示公开来源中记录的范围(0.3 Wh = x1)。

文本 (flash)

x0.17-x0.8

文本 (frontier)

x0.8-x4

推理

x5-x130

图像

x0.3-x14

音频

x0.8-x7

代码智能体

x20-x150

视频

x133-x1,400

虽然每次查询消耗更少,但查询量大增导致总消耗上升

这就是杰文斯悖论:当某样东西变得更便宜、更高效时,使用量会大幅增加,总消耗反而可能增长

系列 20242025202620272028
每 token 效率 (Wh) 0.450.30.260.220.18
每日查询量(十亿次) 0.71.53.569

0.24 Wh

唯一的直接测量数据(Google Gemini)

x 133-x1,400

当前商业视频 vs 文本

x 46

图像模型之间的差异

x 514

推理 benchmark 中的极端峰值(Phi-4)

用 Veo 3.1 生成 10 秒视频消耗的能源,相当于微波炉运行 1-2 小时。

这句话并非夸张修辞,而是实测数据。而这只是冰山一角——AI 公司不愿公开量化的现实远不止于此。

在 AISHA,我们收集、交叉验证了截至 2026 年 4 月的所有可用测量数据——学术论文、生产环境数据、独立 benchmark——构建了这份中文领域最全面的 AI 真实能耗指南。

以下是我们所知道的一切。


一切从一个数字开始:0.3 Wh

为了用可比较的数字来讨论,我们需要一个起点。参考单位是标准文本查询:约 0.3 Wh(瓦时)。

这是多少?相当于一个 10 瓦的 LED 灯泡亮不到两分钟消耗的能量。看起来微不足道。但当它乘以全球每天数十亿次的查询量时,累积影响就不再是小事了。

Google 是唯一公布了生产环境直接测量数据的供应商:0.24 Wh 为中位数,针对 Gemini 的文本查询(2025 年 8 月,基于真实基础设施测量,非估算)。Sam Altman 声称 ChatGPT 平均消耗 0.34 Wh,但未公布任何方法论。Anthropic 则完全没有公布任何数据。

0.3 Wh 作为基准(x1),我们可以比较所有其他模态。


文本:最便宜的模态(也是差异最大的)

并非所有文本模型的消耗都相同。最轻量与最重量之间的差距超过 40 倍。下表展示了这一点:

模型每次查询消耗倍数
Gemini 2.5 Flash-Lite0.10 – 0.15 Whx0.3 – x0.5
Llama 4 Scout0.15 – 0.30 Whx0.5 – x1
DeepSeek V40.15 – 0.35 Whx0.5 – x1.2
GPT-5-mini0.20 – 0.40 Whx0.7 – x1.3
Mistral Large0.25 – 0.50 Whx0.8 – x1.7
Claude Sonnet 4.60.40 – 0.90 Whx1.3 – x3
GPT-5.40.50 – 1.20 Whx1.7 – x4
Gemini 2.5 Ultra0.35 – 0.70 Whx1.2 – x2.3
Claude Opus 4.6~4 Wh(估算)~x13

“flash” 或 “mini” 模型比完整的 frontier 模型效率高 3 到 10 倍。对于绝大多数日常任务——总结文本、撰写邮件、回答事实性问题——小模型就足够了。

模型的选择不是中立的。 选错模型可能让同一任务的能耗增加 26 倍。


推理:当”思考”的代价高达 130 倍

“思考模型”(thinking models)的革命——即在回答前进行内部推理的模型——从根本上改变了能耗等式。它们在给出回答前会生成数万 token 的思维链,而这个内部过程消耗大量能源。

下表收集了主要推理模式的可用测量数据:

模式消耗相对文本基准的倍数
GPT-5.4 带推理4 – 18 Whx13 – x60
Claude 带 Extended Thinking2 – 8 Whx7 – x27
o3(长 prompt)~39 Wh~x130
Deep Research(任何供应商)10 – 40 Whx33 – x133

在最坏情况下,单次推理查询的消耗等于 130 次普通文本查询

Hugging Face AI Energy Score v2(2025 年 12 月)在 H100 GPU 上测量了 205 个开源模型,发现了更极端的结果:

  • Phi-4-reasoning-plus: 启用推理后倍数达 x514(从 0.018 Wh 到 9.46 Wh)
  • DeepSeek-R1-Distill-Llama-70B: 倍数达 x154(从 0.050 Wh 到 7.63 Wh)
  • SmolLM3-3B: 启用推理后单个问题消耗 13 Wh

在不需要的时候启用推理模式,就像开一辆 40 吨的卡车去买面包。


图像:每张 AI 图片相当于给手机充一次电

Bertazzini 等人的研究(2025 年 6 月)在 RTX 4090 上测量了 17 个扩散模型,发现最高效和最低效之间的差异达 46 倍

以下是两个极端:

模型每张图片消耗等价
LCM_SSD_1B(最高效)0.086 Wh~0.3 次文本查询
Ideogram 30.8 – 2.5 Wh3 – 8 次查询
Midjourney v71 – 4 Wh3 – 13 次查询
DALL-E 42 – 6 Wh7 – 20 次查询
GPT-4o 原生图像生成~3 Wh~10 次查询
Lumina(最低效)4.08 Wh~14 次查询

最便宜和最贵模型之间的差距,就像打开一个手电筒和打开一个烤箱的差别。

一个反直觉的发现:本应降低消耗的 int8 量化,在某些图像模型中实际上增加了高达 64.5% 的消耗。效率并不总是表面看起来那样。

一周 7 亿张图片。 这是 OpenAI 在 GPT-4o 中推出原生图像生成时用户生成的数量。仅图像生成部分,七天内就相当于约 2,100 MWh


视频:能源的超级消耗者

如果说文本是自行车,那视频就是飞机。Delavande 和 Luccioni 的研究(2025 年 9 月)在 H100 上测量了 7 个开源视频模型,记录了最便宜和最贵之间 800 倍 的差距。

这些数字不言自明:

模型时长消耗相对文本的倍数
AnimateDiff(最高效)2 秒0.14 Whx0.5
Runway Gen-35 秒3 – 8 Whx10 – x27
WAN2.1-14B5 秒~109 Wh~x363
Kling 3.015 秒~400 Wh~x1,333
Sora 210 秒~1,000 Wh~x3,333

每个 5 秒视频片段消耗 944 Wh。 这就是 Sora 的消耗——相当于给智能手机充电一个月的能量。OpenAI 于 2026 年 3 月 24 日关闭了该服务,其总收入仅 210 万美元,而估计日运营成本高达 1,500 万美元

一个加剧问题的技术细节:视频时长翻倍,能耗翻四倍。这不是线性关系——而是指数级的。


音频:没有人在测量的模态

Passoni 等人(2025 年 5 月)发表了唯一一篇包含音频生成(文本到音频)测量数据的论文,在 NVIDIA A40 GPU 上测试了 7 个模型:

  • AudioLDM(最高效):每 10 秒音频片段约 ~0.25 Wh
  • Tango2(最低效):每 10 秒音频片段约 ~2.0 Wh

令人担忧的发现:更新的模型始终比旧模型消耗更多能源。行业毫无例外地优先考虑质量而非效率。

一篇论文。七个模型。商业服务的数据为零。这就是音频生成领域目前全部的透明度。


代码智能体:一次会话等于 136 次查询

代码智能体代表了一种全新的消耗范式。Simon P. Couch 分析了 Claude Code 的会话(2026 年 1 月),发现一次中位数会话处理 592,000 个 token,消耗约 41 Wh——相当于 136 次常规文本查询。

复杂会话可达 50 到 200 Wh。一个全天使用代码智能体的开发者,其能耗可能相当于一个欧洲普通家庭一天的用电量。

一个开发者让代码智能体运行八小时,消耗的能源等于他的冰箱 24 小时的用电量。


解释一切的悖论

这或许是整份指南中最重要的数据:单次查询效率在不断提升,但总消耗却持续增长。

Google 展示了 12 个月内效率提升 33 倍(2024 年 5 月至 2025 年 5 月)。然而同期其碳排放总量增加了 48-50%。实际用电量增长了 27%,尽管其基于可再生能源证书(market-based)的核算方法宣称”减少了 12%”。

这就是应用于 AI 的杰文斯悖论:当某种资源的使用效率提高时,其成本下降,变得更易获取,使用量飙升,总消耗反而增加。

数据证实了这一点:

  • 每 token 效率: 每年提升 15-30%
  • 每日查询量: 从 4-10 亿次(2024 年)增长到 25-50 亿次(2026 年)
  • 净结果: 总消耗每年增长 25%

效率提升是必要的,但远远不够。没有需求治理——选择合适的模型、避免不必要的使用、衡量影响——技术改进只会加速问题。


黑洞:我们不知道的事

以上所有内容都基于现有的测量数据。但有整个类别是完全没有数据的

  • 任何供应商的 Deep Research(估算范围在 10 到 40 Wh 之间——差距达 x4)
  • 商业图像生成(DALL-E、Midjourney、Ideogram 均被排除在学术 benchmark 之外)
  • Sora 及专有视频模型(估算差异达 x27:从 35 到 936 Wh)
  • 音乐生成(Suno、Udio:发布的数据为零)
  • 专有推理(GPT-5、生产环境中的 Claude、Grok:无独立测量)

障碍不在技术层面。NVIDIA DCGM——GPU 监控系统——已经部署在全球每个数据中心。API 已经按调用报告美元成本。增加一个 energy_wh 字段是轻而易举的事。

企业选择不这样做。障碍是政治性的,不是技术性的


我能做什么?

  • 如果你是用户: 使用我们的 AI 碳足迹计算器 来估算你的消耗。经验法则:文本 < 图像 < 音频 < 代码 < 推理 < 视频。能解决你任务的最小模型永远是最佳选择。

  • 如果你是企业: AI 消耗已经是 CSRD 下碳足迹的一部分。要求你的供应商提供按服务划分的能耗数据。如果 Google 能公布 0.24 Wh,其他公司也能做到。

  • 如果你是开发者: 默认使用 Flash/mini。仅在问题确实需要时才启用推理。缓存结果。每一个架构决策都有能源成本,而这个成本会被数百万用户放大。

  • 如果你是监管者: 测量在今天就是可行的,使用的技术已经存在于每个数据中心。家电能效标签在 30 年内将消耗降低了 60%。AI 需要自己的能效标签。

来源

相关内容

继续探索 AISHA

下一步

计算您使用 AI 的大致影响。

我们的计算器帮助您将查询、图像、推理和智能体放入背景进行评估。

打开计算器