文本 (flash)
x0.17-x0.8
文本查询约 ~0.3 Wh。推理通常在 x 5 到 x 130 之间。图像在 x 0.3 到 x 14 之间。当前商业视频在 x 133 到 x 1,400 之间。代码智能体在 x 20 到 x 150 之间。效率每年都在提升,但总消耗却在增长,因为每次改进都刺激了使用量的飙升(杰文斯悖论)。
对数刻度。柱宽使用保守参考值;右侧显示公开来源中记录的范围(0.3 Wh = x1)。
这就是杰文斯悖论:当某样东西变得更便宜、更高效时,使用量会大幅增加,总消耗反而可能增长
| 系列 | 2024 | 2025 | 2026 | 2027 | 2028 |
|---|---|---|---|---|---|
| 每 token 效率 (Wh) | 0.45 | 0.3 | 0.26 | 0.22 | 0.18 |
| 每日查询量(十亿次) | 0.7 | 1.5 | 3.5 | 6 | 9 |
0.24 Wh
唯一的直接测量数据(Google Gemini)
x 133-x1,400
当前商业视频 vs 文本
x 46
图像模型之间的差异
x 514
推理 benchmark 中的极端峰值(Phi-4)
用 Veo 3.1 生成 10 秒视频消耗的能源,相当于微波炉运行 1-2 小时。
这句话并非夸张修辞,而是实测数据。而这只是冰山一角——AI 公司不愿公开量化的现实远不止于此。
在 AISHA,我们收集、交叉验证了截至 2026 年 4 月的所有可用测量数据——学术论文、生产环境数据、独立 benchmark——构建了这份中文领域最全面的 AI 真实能耗指南。
以下是我们所知道的一切。
为了用可比较的数字来讨论,我们需要一个起点。参考单位是标准文本查询:约 0.3 Wh(瓦时)。
这是多少?相当于一个 10 瓦的 LED 灯泡亮不到两分钟消耗的能量。看起来微不足道。但当它乘以全球每天数十亿次的查询量时,累积影响就不再是小事了。
Google 是唯一公布了生产环境直接测量数据的供应商:0.24 Wh 为中位数,针对 Gemini 的文本查询(2025 年 8 月,基于真实基础设施测量,非估算)。Sam Altman 声称 ChatGPT 平均消耗 0.34 Wh,但未公布任何方法论。Anthropic 则完全没有公布任何数据。
以 0.3 Wh 作为基准(x1),我们可以比较所有其他模态。
并非所有文本模型的消耗都相同。最轻量与最重量之间的差距超过 40 倍。下表展示了这一点:
| 模型 | 每次查询消耗 | 倍数 |
|---|---|---|
| Gemini 2.5 Flash-Lite | 0.10 – 0.15 Wh | x0.3 – x0.5 |
| Llama 4 Scout | 0.15 – 0.30 Wh | x0.5 – x1 |
| DeepSeek V4 | 0.15 – 0.35 Wh | x0.5 – x1.2 |
| GPT-5-mini | 0.20 – 0.40 Wh | x0.7 – x1.3 |
| Mistral Large | 0.25 – 0.50 Wh | x0.8 – x1.7 |
| Claude Sonnet 4.6 | 0.40 – 0.90 Wh | x1.3 – x3 |
| GPT-5.4 | 0.50 – 1.20 Wh | x1.7 – x4 |
| Gemini 2.5 Ultra | 0.35 – 0.70 Wh | x1.2 – x2.3 |
| Claude Opus 4.6 | ~4 Wh(估算) | ~x13 |
“flash” 或 “mini” 模型比完整的 frontier 模型效率高 3 到 10 倍。对于绝大多数日常任务——总结文本、撰写邮件、回答事实性问题——小模型就足够了。
模型的选择不是中立的。 选错模型可能让同一任务的能耗增加 26 倍。
“思考模型”(thinking models)的革命——即在回答前进行内部推理的模型——从根本上改变了能耗等式。它们在给出回答前会生成数万 token 的思维链,而这个内部过程消耗大量能源。
下表收集了主要推理模式的可用测量数据:
| 模式 | 消耗 | 相对文本基准的倍数 |
|---|---|---|
| GPT-5.4 带推理 | 4 – 18 Wh | x13 – x60 |
| Claude 带 Extended Thinking | 2 – 8 Wh | x7 – x27 |
| o3(长 prompt) | ~39 Wh | ~x130 |
| Deep Research(任何供应商) | 10 – 40 Wh | x33 – x133 |
在最坏情况下,单次推理查询的消耗等于 130 次普通文本查询。
Hugging Face AI Energy Score v2(2025 年 12 月)在 H100 GPU 上测量了 205 个开源模型,发现了更极端的结果:
在不需要的时候启用推理模式,就像开一辆 40 吨的卡车去买面包。
Bertazzini 等人的研究(2025 年 6 月)在 RTX 4090 上测量了 17 个扩散模型,发现最高效和最低效之间的差异达 46 倍。
以下是两个极端:
| 模型 | 每张图片消耗 | 等价 |
|---|---|---|
| LCM_SSD_1B(最高效) | 0.086 Wh | ~0.3 次文本查询 |
| Ideogram 3 | 0.8 – 2.5 Wh | 3 – 8 次查询 |
| Midjourney v7 | 1 – 4 Wh | 3 – 13 次查询 |
| DALL-E 4 | 2 – 6 Wh | 7 – 20 次查询 |
| GPT-4o 原生图像生成 | ~3 Wh | ~10 次查询 |
| Lumina(最低效) | 4.08 Wh | ~14 次查询 |
最便宜和最贵模型之间的差距,就像打开一个手电筒和打开一个烤箱的差别。
一个反直觉的发现:本应降低消耗的 int8 量化,在某些图像模型中实际上增加了高达 64.5% 的消耗。效率并不总是表面看起来那样。
一周 7 亿张图片。 这是 OpenAI 在 GPT-4o 中推出原生图像生成时用户生成的数量。仅图像生成部分,七天内就相当于约 2,100 MWh。
如果说文本是自行车,那视频就是飞机。Delavande 和 Luccioni 的研究(2025 年 9 月)在 H100 上测量了 7 个开源视频模型,记录了最便宜和最贵之间 800 倍 的差距。
这些数字不言自明:
| 模型 | 时长 | 消耗 | 相对文本的倍数 |
|---|---|---|---|
| AnimateDiff(最高效) | 2 秒 | 0.14 Wh | x0.5 |
| Runway Gen-3 | 5 秒 | 3 – 8 Wh | x10 – x27 |
| WAN2.1-14B | 5 秒 | ~109 Wh | ~x363 |
| Kling 3.0 | 15 秒 | ~400 Wh | ~x1,333 |
| Sora 2 | 10 秒 | ~1,000 Wh | ~x3,333 |
每个 5 秒视频片段消耗 944 Wh。 这就是 Sora 的消耗——相当于给智能手机充电一个月的能量。OpenAI 于 2026 年 3 月 24 日关闭了该服务,其总收入仅 210 万美元,而估计日运营成本高达 1,500 万美元。
一个加剧问题的技术细节:视频时长翻倍,能耗翻四倍。这不是线性关系——而是指数级的。
Passoni 等人(2025 年 5 月)发表了唯一一篇包含音频生成(文本到音频)测量数据的论文,在 NVIDIA A40 GPU 上测试了 7 个模型:
令人担忧的发现:更新的模型始终比旧模型消耗更多能源。行业毫无例外地优先考虑质量而非效率。
一篇论文。七个模型。商业服务的数据为零。这就是音频生成领域目前全部的透明度。
代码智能体代表了一种全新的消耗范式。Simon P. Couch 分析了 Claude Code 的会话(2026 年 1 月),发现一次中位数会话处理 592,000 个 token,消耗约 41 Wh——相当于 136 次常规文本查询。
复杂会话可达 50 到 200 Wh。一个全天使用代码智能体的开发者,其能耗可能相当于一个欧洲普通家庭一天的用电量。
一个开发者让代码智能体运行八小时,消耗的能源等于他的冰箱 24 小时的用电量。
这或许是整份指南中最重要的数据:单次查询效率在不断提升,但总消耗却持续增长。
Google 展示了 12 个月内效率提升 33 倍(2024 年 5 月至 2025 年 5 月)。然而同期其碳排放总量增加了 48-50%。实际用电量增长了 27%,尽管其基于可再生能源证书(market-based)的核算方法宣称”减少了 12%”。
这就是应用于 AI 的杰文斯悖论:当某种资源的使用效率提高时,其成本下降,变得更易获取,使用量飙升,总消耗反而增加。
数据证实了这一点:
效率提升是必要的,但远远不够。没有需求治理——选择合适的模型、避免不必要的使用、衡量影响——技术改进只会加速问题。
以上所有内容都基于现有的测量数据。但有整个类别是完全没有数据的:
障碍不在技术层面。NVIDIA DCGM——GPU 监控系统——已经部署在全球每个数据中心。API 已经按调用报告美元成本。增加一个 energy_wh 字段是轻而易举的事。
企业选择不这样做。障碍是政治性的,不是技术性的。
如果你是用户: 使用我们的 AI 碳足迹计算器 来估算你的消耗。经验法则:文本 < 图像 < 音频 < 代码 < 推理 < 视频。能解决你任务的最小模型永远是最佳选择。
如果你是企业: AI 消耗已经是 CSRD 下碳足迹的一部分。要求你的供应商提供按服务划分的能耗数据。如果 Google 能公布 0.24 Wh,其他公司也能做到。
如果你是开发者: 默认使用 Flash/mini。仅在问题确实需要时才启用推理。缓存结果。每一个架构决策都有能源成本,而这个成本会被数百万用户放大。
如果你是监管者: 测量在今天就是可行的,使用的技术已经存在于每个数据中心。家电能效标签在 30 年内将消耗降低了 60%。AI 需要自己的能效标签。
相关内容
La brecha entre la inversión en IA y el valor real que genera — y qué pueden hacer las empresas para estar en el 5% que sí funciona
Manifiesto AISHA: por qué defendemos la inteligencia artificial y por qué exigimos que se use de forma responsable