Gemini 2.5 Flash-Lite(快速请求)
0.17 x
消耗
让AI真正'思考'需要多少能量——以及为什么默认启用reasoning模式是个问题
向OpenAI的o3模型发送一次长reasoning请求消耗39.2 Wh——直接测量。这比简单文本请求(0.3 Wh)多x 131。而某些模型的倍数甚至达到x 514。
AI reasoning——'在回答前先思考'的能力——根据模型和任务不同,将能耗倍增x 10至x 500。Reasoning模型平均比标准模型多消耗x 30。代码智能体每次中位会话达到41 Wh(x 137)。问题在于:许多模型默认启用reasoning,即使并不需要。
x 131
o3长reasoning倍增器(已测量)
x 30
Reasoning模型vs.标准模型平均值(HF)
41 Wh
Claude Code中位会话(已测量)
70 %
代码智能体中被浪费的tokens
39.2 Wh。 这是向OpenAI的o3模型发送一次长reasoning请求的能耗——直接测量,可信度高。这比简单文本请求(0.3 Wh)多x131。相当于给你的智能手机充电近三次的能量。
而o3并非极端案例。Hugging Face的AI Energy Score v2发现,reasoning模型平均比标准模型多消耗x30。某些甚至达到x700。
向AI提问和要求它思考之间的差距,不是渐进式的。而是数量级的差距。
自2024年以来,主流AI模型都集成了”reasoning”或”thinking”模式:模型不会立即回答,而是先生成一条内部思维链——有时是数千个不可见的tokens——然后再产出最终答案。
这个过程在计算上非常昂贵,因为:
Dauner和Socher记录了reasoning模型比简洁模型多排放高达x50的CO₂,其中一个案例中单次回答就产生了37,575个tokens。
Hugging Face的AI Energy Score v2(2025年12月),基于H100硬件的直接测量,提供了最扎实的数据:
| 模型 | 无reasoning | 有reasoning | 倍增器 |
|---|---|---|---|
| DeepSeek-R1-Distill-Llama-70B | 0.050 Wh | 7.63 Wh | x154 |
| Phi-4-reasoning-plus | 0.018 Wh | 9.46 Wh | x514 |
这些是真实测量数据,不是估算。它们证实了reasoning不是边际成本——而是规模转变。
对封闭商业模型的校准估算呈现出相同的模式:
| 模型 | 无reasoning | 有reasoning |
|---|---|---|
| GPT-5 | 0.4-1.0 Wh | 8-45 Wh |
| GPT-5.4 | 0.5-1.2 Wh | 4-18 Wh |
| Claude Sonnet 4.6 | 0.25-0.6 Wh | 1.5-8 Wh |
| Claude Opus 4.6 | 0.6-1.5 Wh | 5-20 Wh |
| Gemini 2.5 Pro | 0.25-0.6 Wh | 2-12 Wh |
| Gemini 2.5 Flash | 0.12-0.25 Wh | 0.6-2.5 Wh |
| DeepSeek-V3.2 | 0.08-0.18 Wh | 1.5-8 Wh |
Gemini 2.5 Flash-Lite是值得注意的例外:即使开启thinking,仍保持在0.2-0.8 Wh——证明高效reasoning是可能的。
Reasoning不是免费的。它是一个成本倍增器,根据模型从x10到x500不等。每次你激活”thinking”,你就在——有意或无意地——选择消耗高一个数量级的能量。
如果单次reasoning已经很贵,代码智能体将这种成本推向极致:它们迭代地应用reasoning,在可持续数十分钟的循环中,读取文件、执行命令、验证结果,然后重新开始。
Simon P. Couch于2026年1月测量了Claude Code在编程会话中的实际能耗:
其他智能体在类似范围内运行:
Morph于2026年4月发布了一项揭示性分析:代码智能体消耗的70%的tokens是浪费:
修复单个字符的bug消耗了超过21,000个输入tokens。Claude Code比Aider多使用x4.2的tokens来完成相同任务(479,000 vs ~105,000)。
Deep Research系统代表reasoning的极致:一个问题触发数十次网络搜索、页面阅读、代码执行和迭代综合。结果是一份研究报告——其能源成本也如实反映了这一点。
| 系统 | 每份报告能耗 | 倍增器 |
|---|---|---|
| OpenAI DR (o3) | 35-120 Wh | x117-x400 |
| Gemini Deep Research | 20-80 Wh | x67-x267 |
| Claude Research | 20-70 Wh | x67-x233 |
| Perplexity Deep Research | 15-60 Wh | x50-x200 |
| OpenAI DR (o4-mini) | 8-25 Wh | x27-x83 |
| Grok DeepSearch | 8-30 Wh | x27-x100 |
Simon Willison记录了一次使用o4-mini的Deep Research会话:60,506个输入tokens,22,883个输出tokens(其中**89%**是内部reasoning tokens),77次工具调用(45次搜索 + 24次页面访问 + 12次代码执行)。费用:约$1.10。
Perplexity的一个例子:用户输入7个tokens,输出3,847个tokens,但有308,156个不可见的reasoning tokens。Reasoning占总成本的54%至78%。
这里才是真正的风险:多个模型默认启用reasoning,即使对于不需要它的问题也是如此。
就像一辆车永久开着涡轮增压,即使只是去买面包。
Reasoning模式应该是opt-in,而非opt-out。默认对所有请求启用它,是在数亿用户规模上系统性地浪费能源。
为了全面展示,以下是从最轻量到最重量请求的完整量表:
| 操作 | 能量 | 倍增器 |
|---|---|---|
| Gemini 2.5 Flash-Lite(快速请求) | 0.05 Wh | x0.17 |
| 简单文本请求(参考基准) | 0.3 Wh | x1 |
| Claude Sonnet 4.6 (adaptive/high) | 1.5-8 Wh | x5-x27 |
| Gemini 2.5 Pro (thinking) | 2-12 Wh | x7-x40 |
| GPT-5(中位数,URI估算) | 18.9 Wh | x63 |
| DeepSeek-R1(长请求,直接测量) | 33.6 Wh | x112 |
| o3(长请求,直接测量) | 39.2 Wh | x131 |
| Claude Code(中位会话,已测量) | 41 Wh | x137 |
| Deep Research o3(完整报告) | 35-120 Wh | x117-x400 |
| Sora 2(10秒片段,关闭前) | 90-936 Wh | x300-x3,120 |
从最轻量到最重量的请求,差距达x18,000。这不是变化——而是截然不同的消耗世界,伪装在同一个聊天界面之下。
作为用户: 当你不需要时,关闭reasoning模式。大多数日常请求——写作、搜索、摘要、翻译——在没有thinking的情况下会更好更快地解决。将reasoning留给真正需要它的问题:复杂分析、困难代码、深度研究。
作为技术团队负责人: 建立模型级联策略:Flash-Lite/mini用于常规任务,标准模型用于一般任务,只有在有明确ROI时才使用reasoning。这可以在不影响结果质量的情况下将团队能耗降低80-90%。
作为开发者: 在你的集成中默认关闭thinking。使用thinking: "off"或等效设置作为默认值,只有当任务需要时才启用。实施reasoning token预算。并考虑更轻量的智能体,如Aider(比Claude Code少用x4的tokens完成等效任务)。
作为监管者: 默认启用reasoning是在大规模上不必要消耗能源的典型案例。要求提供商将高效模式作为默认选项——就像家电的ECO模式——的法规,将对全球AI能耗产生可测量的影响。
相关内容
Por qué generar imágenes con IA cuesta entre 3 y 33 veces más energía que una consulta de texto — y qué puedes hacer al respecto
Inventario forense de todo lo que sabemos — y lo que no — sobre la energía que consume la inteligencia artificial
La guía definitiva del consumo energético por modelo y modalidad en 2026