真正有用的一手来源
10
涵盖论文、开放基准测试、企业公开声明和可审计的估算。
透明度 / 不透明度
梳理哪些供应商公开了数据、哪些没有,以及其方法论质量如何。
截至2026年4月,关于 AI 能耗的几乎所有讨论都依赖于少量实验室测量数据、唯一一个粒度级别的生产数据,以及若干误差范围较大的企业或学术估算。核心问题不在于缺乏关注,而在于缺乏按服务维度的开放、可比的遥测数据。
真正有用的一手来源
10
涵盖论文、开放基准测试、企业公开声明和可审计的估算。
单次文本查询的公开范围
0,24-0,34 Wh
Google 和 OpenAI 标定了通用聊天场景已知的狭窄参考区间。
观测到的最大偏差
x 27
不透明的估算链条可能导致推断值与实际值之间出现巨大差异。
本清单将直接测量、生产数据和间接估算分开处理,旨在回答一个简单的问题:我们真正知道什么,我们仍在猜测什么。
结论令人不安:在媒体、监管和营销中流传的大多数数字并非可验证的遥测数据,而是基于假设硬件、估计利用率和仍然封闭的专有模型构建的近似值。
对数刻度,基于文本、图像生成和开源视频生成最常引用的公开范围。
结论:核心问题不再是计算一个漂亮的数字,而是区分真实遥测数据和推测性叙事。如果不做出这种区分,模型之间的任何比较都仍然是脆弱的。
本部分汇集了对能源讨论真正有贡献的来源:实验室直接测量、一个粒度级别的生产案例,以及少量虽有局限但有助于界定数量级的学术或企业估算。
按类型筛选,以区分真实生产数据、开放实验室测量和间接估算。
| 报告值 | 关键发现 | ||
|---|---|---|---|
| Google — Gemini 中位数 2025年8月 · arXiv:2508.15734v1 | 生产 | 0.24 Wh / 查询 | 唯一公开发布的粒度级别生产数据,包含 TPU、主机开销和 PUE。 |
| Sam Altman — ChatGPT 2025年6月 · 企业博客 | 估计 | 0.34 Wh / 查询 | 可作为媒体参考,但缺乏方法论、同行评审和按模态的拆分。 |
| Hugging Face AI Energy Score 2025年12月 · Sasha Luccioni 等 | 直接 | 1至5星 | 比较了200多个开源模型,表明推理可将能耗提高数百倍。 |
| ML.Energy (University of Michigan) 2025-2026 · Jae-Won Chung 等 | 直接 | 开放排行榜 | 为开源模型提供了有用的上下文,但无法解决封闭供应商的黑箱问题。 |
| The Hidden Cost of an Image 2025年6月 · arXiv:2506.17016 | 直接 | 模型间最高达 x46 | 证实了图像生成领域巨大的能耗离散度,以及脱离技术背景进行品牌比较的无意义性。 |
| Video Killed the Energy Budget 2025年9月 · arXiv:2509.19222 | 直接 | 比文本最高达 x2,000 | 开源视频已经呈现出明确的物理断裂:模态比模型营销更重要。 |
| 生成式音频 2025年5月 · arXiv:2505.07615 | 直接 | 因模型而异 | 几乎是 text-to-audio 唯一有用的实证参考,且未涵盖主流商业平台。 |
| How Hungry is AI? 2025 · arXiv:2505.09598 | 估计 | o3: 39.2 Wh · Claude 3.7: 17 Wh | 对可能场景的良好概览,但仍然是基于价格和硬件假设的理论推断。 |
| 自下而上的 Monte Carlo 模拟 2025年9月 · arXiv:2509.20241 | 估计 | 中位数 0.34 Wh | 最佳学术近似之一,但依赖于过多不可观测的输入假设。 |
| Claude Code 能耗估算 2026年1月 · Simon P. Couch | 估计 | 41 Wh / 中位数会话 | 有助于评估智能体的量级,但作者本人承认误差范围接近 x3。 |
本表汇总了可比较的发现。详细内容和方法论局限性仍在原始来源中。
不透明性并非均匀分布。在智能体、商业视频、聚合推理以及封闭平台内的分布式负载方面存在尤为严重的空白。本表记录了哪些关键信息仍未公开,以及哪些地方已存在明确拒绝或持续沉默。
按供应商筛选,查看哪些信息空白仍然存在。
| 缺失数据 | 状态 | |
|---|---|---|
| OpenAI 文本 (GPT-5) | 每次查询的实际能耗 | 无数据 |
| OpenAI 图像 (DALL-E / GPT-4o) | 每张图像的实际能耗 | 无数据 |
| OpenAI 视频 (Sora 2) | 生产环境中每个视频片段的能耗 | 无数据 |
| OpenAI 智能体 (Deep Research) | 每次会话的实际能耗 | 无数据 |
| Anthropic 文本 (Claude) | 生产环境中每次查询的实际能耗 | 无数据 |
| Anthropic 智能体 (Claude Code / Research) | 每次自动化会话的实际能耗 | 无数据 |
| Google 智能体 (Gemini Deep Research) | 每次会话的实际能耗 | 请求被拒绝 |
| Google 视频 (Veo 2/3) | 生产环境中每个视频片段的能耗 | 无数据 |
| Meta 集成推理 | Facebook、Instagram 和 WhatsApp 中 AI 的聚合能耗 | 无数据 |
| xAI 文本 (Grok 4) | Colossus 的实际能耗和排放 | 无数据 |
| 音乐平台 Suno / Udio | 任何公开的实证数据 | 无数据 |
| 商业视频 Runway / Pika / Kling | 任何公开的实证数据 | 无数据 |
数据缺失并不意味着内部没有遥测数据。它意味着没有发布对客户、监管机构或研究人员有用的信息。
最严重的不透明性已不在训练环节,而在经常性的商业推理中:智能体、视频、集成到生产力套件中的工具,以及拥有数十亿用户的平台的聚合消耗。
Google 能够发布每次查询的中位数,同时拒绝提供计算密集型服务的更具体数据,这一事实表明这种壁垒是有选择性的。它们分享的信息足以塑造叙事,但不足以允许真正的比较。
如果业界清楚知道确切的能耗以便管理容量、定价和使用限制,那么不公开数据并非无知,而是策略。
自下而上的估算不是因为个别环节的恶意而失败,而是因为不可观测假设的累积。每一步都增加不确定性:架构、硬件、利用率、开销、PUE 以及在多任务或多用户间的成本分摊。
当供应商不公开每次查询的遥测数据时,分析师只能从外部重建能耗成本。这项工作可能在学术上是严谨的,但仍然是一种知情推测。
问题是累积性的:如果每一步都引入一个合理的误差范围,总误差可能增长到使商业比较或监管比较变得毫无意义。
AISHA:当一个能耗数字依赖于太多不可见的假设时,它就不再是运营数据,而成为一种精致的猜想。监管目标不应是猜得更好,而是测得更好。
同一类别
Wed Apr 01 2026 00:00:00 GMT+0200 (Central European Summer Time)
分析缺乏透明度背后的经济和战略激励机制。
Wed Apr 01 2026 00:00:00 GMT+0200 (Central European Summer Time)
哪些已经可以测量、哪些标准仍然缺失,以及监管要求如何与之匹配。
Wed Apr 01 2026 00:00:00 GMT+0200 (Central European Summer Time)
如果市场拥有按服务和模态划分的可比消耗指标,将会发生什么变化。