你每天使用的 AI 到底消耗多少能源？

文本查询约 ~0.3 Wh。推理通常在 x 5 到 x 130 之间。图像在 x 0.3 到 x 14 之间。当前商业视频在 x 133 到 x 1,400 之间。代码智能体在 x 20 到 x 150 之间。效率每年都在提升，但总消耗却在增长，因为每次改进都刺激了使用量的飙升（杰文斯悖论）。

系列	2024	2025	2026	2027	2028
每 token 效率 (Wh)	0.45	0.3	0.26	0.22	0.18
每日查询量（十亿次）	0.7	1.5	3.5	6	9

用 Veo 3.1 生成 10 秒视频消耗的能源，相当于微波炉运行 1-2 小时。

这句话并非夸张修辞，而是实测数据。而这只是冰山一角——AI 公司不愿公开量化的现实远不止于此。

在 AISHA，我们收集、交叉验证了截至 2026 年 4 月的所有可用测量数据——学术论文、生产环境数据、独立 benchmark——构建了这份中文领域最全面的 AI 真实能耗指南。

以下是我们所知道的一切。

一切从一个数字开始：0.3 Wh

为了用可比较的数字来讨论，我们需要一个起点。参考单位是标准文本查询：约 0.3 Wh（瓦时）。

这是多少？相当于一个 10 瓦的 LED 灯泡亮不到两分钟消耗的能量。看起来微不足道。但当它乘以全球每天数十亿次的查询量时，累积影响就不再是小事了。

Google 是唯一公布了生产环境直接测量数据的供应商：0.24 Wh 为中位数，针对 Gemini 的文本查询（2025 年 8 月，基于真实基础设施测量，非估算）。Sam Altman 声称 ChatGPT 平均消耗 0.34 Wh，但未公布任何方法论。Anthropic 则完全没有公布任何数据。

以 0.3 Wh 作为基准（x1），我们可以比较所有其他模态。

文本：最便宜的模态（也是差异最大的）

并非所有文本模型的消耗都相同。最轻量与最重量之间的差距超过 40 倍。下表展示了这一点：

模型	每次查询消耗	倍数
Gemini 2.5 Flash-Lite	0.10 – 0.15 Wh	x0.3 – x0.5
Llama 4 Scout	0.15 – 0.30 Wh	x0.5 – x1
DeepSeek V4	0.15 – 0.35 Wh	x0.5 – x1.2
GPT-5-mini	0.20 – 0.40 Wh	x0.7 – x1.3
Mistral Large	0.25 – 0.50 Wh	x0.8 – x1.7
Claude Sonnet 4.6	0.40 – 0.90 Wh	x1.3 – x3
GPT-5.4	0.50 – 1.20 Wh	x1.7 – x4
Gemini 2.5 Ultra	0.35 – 0.70 Wh	x1.2 – x2.3
Claude Opus 4.6	~4 Wh（估算）	~x13

“flash” 或 “mini” 模型比完整的 frontier 模型效率高 3 到 10 倍。对于绝大多数日常任务——总结文本、撰写邮件、回答事实性问题——小模型就足够了。

模型的选择不是中立的。 选错模型可能让同一任务的能耗增加 26 倍。

推理：当”思考”的代价高达 130 倍

“思考模型”（thinking models）的革命——即在回答前进行内部推理的模型——从根本上改变了能耗等式。它们在给出回答前会生成数万 token 的思维链，而这个内部过程消耗大量能源。

下表收集了主要推理模式的可用测量数据：

模式	消耗	相对文本基准的倍数
GPT-5.4 带推理	4 – 18 Wh	x13 – x60
Claude 带 Extended Thinking	2 – 8 Wh	x7 – x27
o3（长 prompt）	~39 Wh	~x130
Deep Research（任何供应商）	10 – 40 Wh	x33 – x133

在最坏情况下，单次推理查询的消耗等于 130 次普通文本查询。

Hugging Face AI Energy Score v2（2025 年 12 月）在 H100 GPU 上测量了 205 个开源模型，发现了更极端的结果：

Phi-4-reasoning-plus： 启用推理后倍数达 x514（从 0.018 Wh 到 9.46 Wh）
DeepSeek-R1-Distill-Llama-70B： 倍数达 x154（从 0.050 Wh 到 7.63 Wh）
SmolLM3-3B： 启用推理后单个问题消耗 13 Wh

在不需要的时候启用推理模式，就像开一辆 40 吨的卡车去买面包。

图像：每张 AI 图片相当于给手机充一次电

Bertazzini 等人的研究（2025 年 6 月）在 RTX 4090 上测量了 17 个扩散模型，发现最高效和最低效之间的差异达 46 倍。

以下是两个极端：

模型	每张图片消耗	等价
LCM_SSD_1B（最高效）	0.086 Wh	~0.3 次文本查询
Ideogram 3	0.8 – 2.5 Wh	3 – 8 次查询
Midjourney v7	1 – 4 Wh	3 – 13 次查询
DALL-E 4	2 – 6 Wh	7 – 20 次查询
GPT-4o 原生图像生成	~3 Wh	~10 次查询
Lumina（最低效）	4.08 Wh	~14 次查询

最便宜和最贵模型之间的差距，就像打开一个手电筒和打开一个烤箱的差别。

一个反直觉的发现：本应降低消耗的 int8 量化，在某些图像模型中实际上增加了高达 64.5% 的消耗。效率并不总是表面看起来那样。

一周 7 亿张图片。 这是 OpenAI 在 GPT-4o 中推出原生图像生成时用户生成的数量。仅图像生成部分，七天内就相当于约 2,100 MWh。

视频：能源的超级消耗者

如果说文本是自行车，那视频就是飞机。Delavande 和 Luccioni 的研究（2025 年 9 月）在 H100 上测量了 7 个开源视频模型，记录了最便宜和最贵之间 800 倍 的差距。

这些数字不言自明：

模型	时长	消耗	相对文本的倍数
AnimateDiff（最高效）	2 秒	0.14 Wh	x0.5
Runway Gen-3	5 秒	3 – 8 Wh	x10 – x27
WAN2.1-14B	5 秒	~109 Wh	~x363
Kling 3.0	15 秒	~400 Wh	~x1,333
Sora 2	10 秒	~1,000 Wh	~x3,333

每个 5 秒视频片段消耗 944 Wh。 这就是 Sora 的消耗——相当于给智能手机充电一个月的能量。OpenAI 于 2026 年 3 月 24 日关闭了该服务，其总收入仅 210 万美元，而估计日运营成本高达 1,500 万美元。

一个加剧问题的技术细节：视频时长翻倍，能耗翻四倍。这不是线性关系——而是指数级的。

音频：没有人在测量的模态

Passoni 等人（2025 年 5 月）发表了唯一一篇包含音频生成（文本到音频）测量数据的论文，在 NVIDIA A40 GPU 上测试了 7 个模型：

AudioLDM（最高效）：每 10 秒音频片段约 ~0.25 Wh
Tango2（最低效）：每 10 秒音频片段约 ~2.0 Wh

令人担忧的发现：更新的模型始终比旧模型消耗更多能源。行业毫无例外地优先考虑质量而非效率。

一篇论文。七个模型。商业服务的数据为零。这就是音频生成领域目前全部的透明度。

代码智能体：一次会话等于 136 次查询

代码智能体代表了一种全新的消耗范式。Simon P. Couch 分析了 Claude Code 的会话（2026 年 1 月），发现一次中位数会话处理 592,000 个 token，消耗约 41 Wh——相当于 136 次常规文本查询。

复杂会话可达 50 到 200 Wh。一个全天使用代码智能体的开发者，其能耗可能相当于一个欧洲普通家庭一天的用电量。

一个开发者让代码智能体运行八小时，消耗的能源等于他的冰箱 24 小时的用电量。

解释一切的悖论

这或许是整份指南中最重要的数据：单次查询效率在不断提升，但总消耗却持续增长。

Google 展示了 12 个月内效率提升 33 倍（2024 年 5 月至 2025 年 5 月）。然而同期其碳排放总量增加了 48-50%。实际用电量增长了 27%，尽管其基于可再生能源证书（market-based）的核算方法宣称”减少了 12%”。

这就是应用于 AI 的杰文斯悖论：当某种资源的使用效率提高时，其成本下降，变得更易获取，使用量飙升，总消耗反而增加。

数据证实了这一点：

每 token 效率： 每年提升 15-30%
每日查询量： 从 4-10 亿次（2024 年）增长到 25-50 亿次（2026 年）
净结果： 总消耗每年增长 25%

效率提升是必要的，但远远不够。没有需求治理——选择合适的模型、避免不必要的使用、衡量影响——技术改进只会加速问题。

黑洞：我们不知道的事

以上所有内容都基于现有的测量数据。但有整个类别是完全没有数据的：

任何供应商的 Deep Research（估算范围在 10 到 40 Wh 之间——差距达 x4）
商业图像生成（DALL-E、Midjourney、Ideogram 均被排除在学术 benchmark 之外）
Sora 及专有视频模型（估算差异达 x27：从 35 到 936 Wh）
音乐生成（Suno、Udio：发布的数据为零）
专有推理（GPT-5、生产环境中的 Claude、Grok：无独立测量）

障碍不在技术层面。NVIDIA DCGM——GPU 监控系统——已经部署在全球每个数据中心。API 已经按调用报告美元成本。增加一个 energy_wh 字段是轻而易举的事。

企业选择不这样做。障碍是政治性的，不是技术性的。

我能做什么？

如果你是用户： 使用我们的 AI 碳足迹计算器来估算你的消耗。经验法则：文本 < 图像 < 音频 < 代码 < 推理 < 视频。能解决你任务的最小模型永远是最佳选择。
如果你是企业： AI 消耗已经是 CSRD 下碳足迹的一部分。要求你的供应商提供按服务划分的能耗数据。如果 Google 能公布 0.24 Wh，其他公司也能做到。
如果你是开发者： 默认使用 Flash/mini。仅在问题确实需要时才启用推理。缓存结果。每一个架构决策都有能源成本，而这个成本会被数百万用户放大。
如果你是监管者： 测量在今天就是可行的，使用的技术已经存在于每个数据中心。家电能效标签在 30 年内将消耗降低了 60%。AI 需要自己的能效标签。

你每天使用的 AI 到底消耗多少能源？

各 AI 模态的能源消耗

虽然每次查询消耗更少，但查询量大增导致总消耗上升