透明度 / 不透明度

能源不透明性取证清单

梳理哪些供应商公开了数据、哪些没有，以及其方法论质量如何。

公开证据仍然极少且极不均衡

截至2026年4月，关于 AI 能耗的几乎所有讨论都依赖于少量实验室测量数据、唯一一个粒度级别的生产数据，以及若干误差范围较大的企业或学术估算。核心问题不在于缺乏关注，而在于缺乏按服务维度的开放、可比的遥测数据。

真正有用的一手来源

10

涵盖论文、开放基准测试、企业公开声明和可审计的估算。

单次文本查询的公开范围

0,24-0,34 Wh

Google 和 OpenAI 标定了通用聊天场景已知的狭窄参考区间。

观测到的最大偏差

x 27

不透明的估算链条可能导致推断值与实际值之间出现巨大差异。

本清单将直接测量、生产数据和间接估算分开处理，旨在回答一个简单的问题：我们真正知道什么，我们仍在猜测什么。

结论令人不安：在媒体、监管和营销中流传的大多数数字并非可验证的遥测数据，而是基于假设硬件、估计利用率和仍然封闭的专有模型构建的近似值。

基于现有证据的各模态能耗

对数刻度，基于文本、图像生成和开源视频生成最常引用的公开范围。

结论：核心问题不再是计算一个漂亮的数字，而是区分真实遥测数据和推测性叙事。如果不做出这种区分，模型之间的任何比较都仍然是脆弱的。

真正支撑这场讨论的10项关键证据

本部分汇集了对能源讨论真正有贡献的来源：实验室直接测量、一个粒度级别的生产案例，以及少量虽有局限但有助于界定数量级的学术或企业估算。

一手证据清单

按类型筛选，以区分真实生产数据、开放实验室测量和间接估算。

		报告值	关键发现
Google — Gemini 中位数 2025年8月 · arXiv:2508.15734v1	生产	0.24 Wh / 查询	唯一公开发布的粒度级别生产数据，包含 TPU、主机开销和 PUE。
Sam Altman — ChatGPT 2025年6月 · 企业博客	估计	0.34 Wh / 查询	可作为媒体参考，但缺乏方法论、同行评审和按模态的拆分。
Hugging Face AI Energy Score 2025年12月 · Sasha Luccioni 等	直接	1至5星	比较了200多个开源模型，表明推理可将能耗提高数百倍。
ML.Energy (University of Michigan) 2025-2026 · Jae-Won Chung 等	直接	开放排行榜	为开源模型提供了有用的上下文，但无法解决封闭供应商的黑箱问题。
The Hidden Cost of an Image 2025年6月 · arXiv:2506.17016	直接	模型间最高达 x46	证实了图像生成领域巨大的能耗离散度，以及脱离技术背景进行品牌比较的无意义性。
Video Killed the Energy Budget 2025年9月 · arXiv:2509.19222	直接	比文本最高达 x2,000	开源视频已经呈现出明确的物理断裂：模态比模型营销更重要。
生成式音频 2025年5月 · arXiv:2505.07615	直接	因模型而异	几乎是 text-to-audio 唯一有用的实证参考，且未涵盖主流商业平台。
How Hungry is AI? 2025 · arXiv:2505.09598	估计	o3: 39.2 Wh · Claude 3.7: 17 Wh	对可能场景的良好概览，但仍然是基于价格和硬件假设的理论推断。
自下而上的 Monte Carlo 模拟 2025年9月 · arXiv:2509.20241	估计	中位数 0.34 Wh	最佳学术近似之一，但依赖于过多不可观测的输入假设。
Claude Code 能耗估算 2026年1月 · Simon P. Couch	估计	41 Wh / 中位数会话	有助于评估智能体的量级，但作者本人承认误差范围接近 x3。

本表汇总了可比较的发现。详细内容和方法论局限性仍在原始来源中。

可验证的生产数据

Google 是唯一发布了可比较的粒度级别生产数据的大型平台。
该数据已证明按查询维度的测量在技术上是可行的。
最敏感的部分仍然缺失：智能体、商业视频以及按高级服务的拆分。

开放实验室

学术界和开源社区确实可以在受控条件下测量文本、图像、音频和视频。
这些数据有助于理解数量级，但无法替代真实产品的遥测。
占据主导地位的封闭模型仍在公开比较之外。

间接估算

最常被引用的估算混合了假设硬件、不确定的利用率以及作为代理的财务成本。
它们可以引导讨论，但无法支撑精细监管或公平的商业比较。
供应商越不透明，误差范围就越大。

大型供应商中仍然缺失的数据

不透明性并非均匀分布。在智能体、商业视频、聚合推理以及封闭平台内的分布式负载方面存在尤为严重的空白。本表记录了哪些关键信息仍未公开，以及哪些地方已存在明确拒绝或持续沉默。

仍未公开的数据清单

按供应商筛选，查看哪些信息空白仍然存在。

	缺失数据	状态
OpenAI 文本 (GPT-5)	每次查询的实际能耗	无数据
OpenAI 图像 (DALL-E / GPT-4o)	每张图像的实际能耗	无数据
OpenAI 视频 (Sora 2)	生产环境中每个视频片段的能耗	无数据
OpenAI 智能体 (Deep Research)	每次会话的实际能耗	无数据
Anthropic 文本 (Claude)	生产环境中每次查询的实际能耗	无数据
Anthropic 智能体 (Claude Code / Research)	每次自动化会话的实际能耗	无数据
Google 智能体 (Gemini Deep Research)	每次会话的实际能耗	请求被拒绝
Google 视频 (Veo 2/3)	生产环境中每个视频片段的能耗	无数据
Meta 集成推理	Facebook、Instagram 和 WhatsApp 中 AI 的聚合能耗	无数据
xAI 文本 (Grok 4)	Colossus 的实际能耗和排放	无数据
音乐平台 Suno / Udio	任何公开的实证数据	无数据
商业视频 Runway / Pika / Kling	任何公开的实证数据	无数据

数据缺失并不意味着内部没有遥测数据。它意味着没有发布对客户、监管机构或研究人员有用的信息。

这张表揭示了什么

最严重的不透明性已不在训练环节，而在经常性的商业推理中：智能体、视频、集成到生产力套件中的工具，以及拥有数十亿用户的平台的聚合消耗。

Google 能够发布每次查询的中位数，同时拒绝提供计算密集型服务的更具体数据，这一事实表明这种壁垒是有选择性的。它们分享的信息足以塑造叙事，但不足以允许真正的比较。

面临最大潜在监管摩擦的产品恰恰是最不透明的。
智能体仍然是市场上最不透明且战略上最敏感的领域。
没有按服务维度的数据，公共讨论就会转向无多大用处的聚合平均值。

如果业界清楚知道确切的能耗以便管理容量、定价和使用限制，那么不公开数据并非无知，而是策略。

没有直接测量时，一个数字是如何被制造出来的

自下而上的估算不是因为个别环节的恶意而失败，而是因为不可观测假设的累积。每一步都增加不确定性：架构、硬件、利用率、开销、PUE 以及在多任务或多用户间的成本分摊。

当供应商不公开每次查询的遥测数据时，分析师只能从外部重建能耗成本。这项工作可能在学术上是严谨的，但仍然是一种知情推测。

问题是累积性的：如果每一步都引入一个合理的误差范围，总误差可能增长到使商业比较或监管比较变得毫无意义。

1. 活跃参数

专有 MoE 模型不公开每个 token 激活了多少专家。
如果我们不知道每次回复使用了多少架构，参数总量就毫无意义。
起始误差：可达 x2 到 x10。

2. 假设硬件

H100、H200、B200 或 TPU 会从根本上改变每 FLOP 的成本。
在无法看到实际集群的情况下，任何估算一开始就用错了芯片。
典型偏差：50%-100%。

3. 实际利用率

同一硬件在10%、30%或60%利用率下表现截然不同。
批处理和调度的经济性对外部观察者来说是一个黑箱。
此处误差可增长至 x3-x5。

4. 每次查询的 FLOPs

标准公式无法很好地捕捉路由、注意力、缓存及其他专有优化。
两个 token 数相同的 prompt 消耗的能量可能不同。
偏差可从 30% 到 x2。

5. 能量转换

使用最大 TDP 还是平均功耗会显著改变最终结果。
此外，生产集群以外部无法观察到的效率进行并行处理。
额外偏差可达 50%。

6. 系统开销

GPU 不等于完整节点：CPU、网络、内存和存储同样消耗能量。
Google 记录显示其加速器仅占总能耗的58%。
此处又出现 50%-100% 的跳跃。

7. PUE 与数据中心环境

同一工作负载在 PUE 1.09 和 PUE 1.5 以及不同冷却系统下表现不同。
AI 密集集群的热力学动态不一定符合供应商的历史 PUE。
最后的误差范围：10%-50%。

AISHA：当一个能耗数字依赖于太多不可见的假设时，它就不再是运营数据，而成为一种精致的猜想。监管目标不应是猜得更好，而是测得更好。

来源

同一类别