全球仅存在10项AI能耗的真实测量数据

只有一项由AI提供商发布的直接生产测量：Google测得每次Gemini查询0.24 Wh。OpenAI给出了一个没有方法论的数字。其余——Anthropic、Midjourney、Suno、Runway、xAI——绝对没有发布任何数据。你读到的其他关于AI消耗的内容都是学术估算或外推。

在媒体、学术报告和监管辩论中流传的所有AI能耗数字中，只有极少数是在生产环境中进行的真实测量。其余——包括几乎所有关于GPT-5、Claude、Sora、Midjourney、DALL-E、Suno和所有商业服务的数据——都是误差范围从x2到x27的估算。

我们做了没有人似乎愿意做的事：逐个数据点进行取证清点，记录所有真正被测量过的内容。结果令人沮丧。

唯一真实数据点：Google与其0.24 Wh

在整个人工智能行业中，只有一项由AI提供商发布的直接生产测量。

Google于2025年8月披露，向Gemini Apps发送一次中位文本查询消耗0.24 Wh，并产生约0.03 gCO₂e——使用清洁能源证书的市场会计核算。数据发表在一篇可审查的论文中（arXiv:2508.15734），方法论明确。

0.24 Wh。 一个数字。一家公司。在一个每年在基础设施上投入超过5000亿美元的行业中。

重要的是要理解这个数字涵盖了什么和没有涵盖什么：它指的是中位文本查询。不包括Imagen 3的图像生成，不包括Veo的视频，不包括Gemini Deep Research。这是一个部分数据——但它是唯一值得称为真实测量的数据。

在一个承诺改变世界的行业中，只有一家提供商公开测量了其主要产品消耗多少能源。

未经证实的声明：OpenAI与其0.34 Wh

Sam Altman于2025年6月声称平均ChatGPT查询消耗0.34 Wh。他将其发布在个人博客文章中，而非论文。他没有发布方法论。他没有定义什么构成”平均查询”。他没有说明是否包括图像、Deep Research或代码解释器。

这个数字是合理的——它与Google的数字在同一数量级——但无法验证。这具有实际意义：当一家开票数十亿美元、刚刚推出GPT-5、GPT-5.4、Sora 2和Codex的公司不发布可重现的方法论时，它不是在提供透明度。它在提供营销声明。

当我们深入细节时，情况变得更加复杂：

根据URI AI Lab，GPT-5每次查询的中位估算为~18.9 Wh——是基准参考的63倍
GPT-5.4在激活推理时每次查询可达4–18 Wh
Sora 2在关闭前每个10秒片段消耗~1000 Wh

这些数据点没有一个来自OpenAI。全都是第三方估算。

学术测量：5个严谨的孤岛

在提供商之外，少数研究团队做了行业拒绝做的事：真正测量。

1. AI Energy Score — Hugging Face

最雄心勃勃的系统性测量项目。Hugging Face于2025年2月推出第1版，2025年12月推出v2。它通过在标准化硬件（NVIDIA H100）上运行，测量了~205个开源模型的真实消耗。

问题：它只测量开放模型。GPT-5、Claude、Gemini、Midjourney——绝大多数人使用的——在设计上被排除在外。

2. Bertazzini et al.——图像的隐性成本

2025年发布（arXiv:2506.17016），该团队在RTX 4090上测量了17个扩散模型用于图像生成。他们发现最高效和最低效模型之间有46倍的差异。

x46。 这意味着选择错误的模型可能会使您的消耗乘以近50倍来获得质量相似的图像。

3. Luccioni & Delavande——视频的能源预算

他们在H100上测量了7个视频生成模型（arXiv:2509.19222）。他们的数据证实了行业不愿说的：用AI生成视频的消耗比文本查询多x300到x3000。

4. Passoni et al.——没有人测量的音频

第一项关于音频生成消耗的严肃研究（arXiv:2505.07615）。他们发现Tango2每个10秒片段消耗~2 Wh，AudioLDM约~0.25 Wh。这是整个生成音频行业的唯一参考数据——Suno、Udio和ElevenLabs绝对没有发布任何数据。

5. ML.Energy — 密歇根大学

机器学习模型的持续能效基准测试。提供标准硬件的参考数据，但——再次——只针对他们可以访问的模型，而非封闭的商业服务。

点测量：3个孤立数据点

除系统性研究外，还有三项特定模型的直接测量作为锚定参考：

DeepSeek-R1（长推理）：每次长查询33.6 Wh——直接测量，高可信度。是简单文本查询的112倍。
OpenAI的o3（长推理）：39.2 Wh——直接测量。基准参考的131倍。
Stability的SDXL（H100上的图像）：每图1.64 Wh——Hugging Face测量的基准。图像生成的最佳开放锚定点。

还有一个特别具有启发性的测量：

Claude Code（中位编程会话）：41 Wh——由Simon P. Couch于2026年1月测量。简单查询的137倍。在整个工作日使用代码代理的开发人员消耗约1300 Wh——相当于一个洗碗机周期。

黑洞：我们不知道的

现在来说令人不舒服的部分。这是绝对没有人发布的内容：

Anthropic（Claude、Claude Code）：零能耗数据。从未。最新环境报告不包含每次查询的遥测数据。
Midjourney：零数据。封闭架构，无公开基准测试。
Suno、Udio、ElevenLabs Music：零数据。整个生成音频行业在完全不透明中运营。
Runway、Pika、Kling、Hailuo：零数据。取代Sora的视频生成器不发布每个片段消耗多少。
xAI（Grok）：有争议的数据。其孟菲斯的Colossus园区使用35台未经许可的燃气轮机，但他们没有发布每次推理的消耗数据。
Adobe（Firefly）：已生成超过240亿个资产，但拒绝提供每张图像的分类消耗遥测数据。

想象一下，如果汽车行业销售没有油耗标签的汽车。如果电器制造商不发布他们使用多少电。这正是2026年AI正在发生的事情。

应该存在但不存在的数字

为了衡量信息真空的规模，这些是行业今天可以发布的数据点——因为他们有遥测数据——但选择不发布：

按类型（文本、图像、视频、音频、代码）每次查询的Wh
自主代理每次会话的Wh
每个服务每月/年的总推理消耗
每个数据中心的冷却用水量
按服务区域的真实能源结构（而非经过美化的全球平均值）

Google证明了在不失去市场份额的情况下发布这些数据是可能的。当它披露0.24 Wh时，没有失去用户。它赢得了可信度。

根据IEA，全球数据中心消耗将从2024年的415 TWh增长到2030年的945至1580 TWh之间。这相当于将日本的电力消耗加入全球系统。这种增长的大部分将来自AI。

仅凭10项真实测量就对这种规模的影响做出明智决策不是困难。这是不可能的。

我能做什么？

如果你是AI用户： 要求透明度。选择服务时，问：它是否发布消耗数据？我们的碳足迹计算器根据已知的少量信息给出估算，但如果提供商给您真实数据会更好。
如果你领导一家公司： 在欧洲CSRD框架下，您的碳足迹包括您签约的AI服务（Scope 3）。如果您的提供商没有给您消耗数据，您在可持续发展报告中是盲目飞行。
如果你是开发者： 尽可能使用具有已发布测量数据的模型。由AI Energy Score和ML.Energy测量的开源模型给您真实数据。封闭的商业服务给您承诺。
如果你在监管领域工作： EU AI Act（第40条）已经规定了能源透明度要求，但标准要到2028年8月才具有约束力。测量今天就可以实现，无需新技术。缺少的是法律义务。