Reasoning vs. 快速回答：能耗多x130的那次请求

AI reasoning——'在回答前先思考'的能力——根据模型和任务不同，将能耗倍增x 10至x 500。Reasoning模型平均比标准模型多消耗x 30。代码智能体每次中位会话达到41 Wh（x 137）。问题在于：许多模型默认启用reasoning，即使并不需要。

39.2 Wh。 这是向OpenAI的o3模型发送一次长reasoning请求的能耗——直接测量，可信度高。这比简单文本请求（0.3 Wh）多x131。相当于给你的智能手机充电近三次的能量。

而o3并非极端案例。Hugging Face的AI Energy Score v2发现，reasoning模型平均比标准模型多消耗x30。某些甚至达到x700。

向AI提问和要求它思考之间的差距，不是渐进式的。而是数量级的差距。

什么是reasoning，为什么它这么贵

自2024年以来，主流AI模型都集成了”reasoning”或”thinking”模式：模型不会立即回答，而是先生成一条内部思维链——有时是数千个不可见的tokens——然后再产出最终答案。

这个过程在计算上非常昂贵，因为：

生成隐藏tokens： 模型可能产生比展示给用户多10-100倍的内部tokens。每个token都消耗能量，即使你永远看不到它。
激活额外层： Reasoning模型通常激活更多参数、更多注意力层和更多内部验证循环。
随复杂度扩展： 不同于快速回答（成本相对固定），reasoning随问题难度扩展。一个复杂问题可能产生10分钟的内部”思考”。

Dauner和Socher记录了reasoning模型比简洁模型多排放高达x50的CO₂，其中一个案例中单次回答就产生了37,575个tokens。

数据：逐模型分析

Hugging Face的AI Energy Score v2（2025年12月），基于H100硬件的直接测量，提供了最扎实的数据：

模型	无reasoning	有reasoning	倍增器
DeepSeek-R1-Distill-Llama-70B	0.050 Wh	7.63 Wh	x154
Phi-4-reasoning-plus	0.018 Wh	9.46 Wh	x514

这些是真实测量数据，不是估算。它们证实了reasoning不是边际成本——而是规模转变。

对封闭商业模型的校准估算呈现出相同的模式：

模型	无reasoning	有reasoning
GPT-5	0.4-1.0 Wh	8-45 Wh
GPT-5.4	0.5-1.2 Wh	4-18 Wh
Claude Sonnet 4.6	0.25-0.6 Wh	1.5-8 Wh
Claude Opus 4.6	0.6-1.5 Wh	5-20 Wh
Gemini 2.5 Pro	0.25-0.6 Wh	2-12 Wh
Gemini 2.5 Flash	0.12-0.25 Wh	0.6-2.5 Wh
DeepSeek-V3.2	0.08-0.18 Wh	1.5-8 Wh

Gemini 2.5 Flash-Lite是值得注意的例外：即使开启thinking，仍保持在0.2-0.8 Wh——证明高效reasoning是可能的。

Reasoning不是免费的。它是一个成本倍增器，根据模型从x10到x500不等。每次你激活”thinking”，你就在——有意或无意地——选择消耗高一个数量级的能量。

代码智能体：循环中的reasoning

如果单次reasoning已经很贵，代码智能体将这种成本推向极致：它们迭代地应用reasoning，在可持续数十分钟的循环中，读取文件、执行命令、验证结果，然后重新开始。

Simon P. Couch于2026年1月测量了Claude Code在编程会话中的实际能耗：

中位会话： 24次交互中共592,439个tokens
每次会话能耗： 41 Wh — 基准线的x137
每日高强度使用（2-3个同时实例）：~1,300 Wh — 相当于一次洗碗机循环

其他智能体在类似范围内运行：

Claude Code + Opus 4.6： 每次会话45-70 Wh（x150-x233）
GPT-5.3-Codex： 每次任务12-40 Wh（x40-x133）
Devin 2.0： 每次自主任务10-60 Wh（x33-x200）
Cursor AI： 每次高强度会话5-25 Wh（x17-x83）
GitHub Copilot Agent： 每次PR工作流3-15 Wh（x10-x50）
Aider： 每次任务2-9 Wh（x7-x30）

被浪费tokens的问题

Morph于2026年4月发布了一项揭示性分析：代码智能体消耗的70%的tokens是浪费：

35-45% 用于读取文件
15-25% 用于工具输出
15-20% 用于上下文重传
10-15% 用于内部reasoning
只有5-15%生成真正的代码

修复单个字符的bug消耗了超过21,000个输入tokens。Claude Code比Aider多使用x4.2的tokens来完成相同任务（479,000 vs ~105,000）。

Deep Research：替代分析师的那次请求

Deep Research系统代表reasoning的极致：一个问题触发数十次网络搜索、页面阅读、代码执行和迭代综合。结果是一份研究报告——其能源成本也如实反映了这一点。

系统	每份报告能耗	倍增器
OpenAI DR (o3)	35-120 Wh	x117-x400
Gemini Deep Research	20-80 Wh	x67-x267
Claude Research	20-70 Wh	x67-x233
Perplexity Deep Research	15-60 Wh	x50-x200
OpenAI DR (o4-mini)	8-25 Wh	x27-x83
Grok DeepSearch	8-30 Wh	x27-x100

Simon Willison记录了一次使用o4-mini的Deep Research会话：60,506个输入tokens，22,883个输出tokens（其中**89%**是内部reasoning tokens），77次工具调用（45次搜索 + 24次页面访问 + 12次代码执行）。费用：约$1.10。

Perplexity的一个例子：用户输入7个tokens，输出3,847个tokens，但有308,156个不可见的reasoning tokens。Reasoning占总成本的54%至78%。

“默认thinking”的问题

这里才是真正的风险：多个模型默认启用reasoning，即使对于不需要它的问题也是如此。

Claude Sonnet 4.6默认启用”adaptive thinking”模式。一个本可用0.3 Wh解决的简单请求，却经过不必要的reasoning处理，消耗1.5-8 Wh。
GPT-5使用路由器按自身判断混合快速回答和reasoning——而非用户的判断。
Claude Opus 4.6默认在thinking模式下运行，即使降价也如此：降价并不等于降低能耗。

就像一辆车永久开着涡轮增压，即使只是去买面包。

Reasoning模式应该是opt-in，而非opt-out。默认对所有请求启用它，是在数亿用户规模上系统性地浪费能源。

终极倍增器表格

为了全面展示，以下是从最轻量到最重量请求的完整量表：

操作	能量	倍增器
Gemini 2.5 Flash-Lite（快速请求）	0.05 Wh	x0.17
简单文本请求（参考基准）	0.3 Wh	x1
Claude Sonnet 4.6 (adaptive/high)	1.5-8 Wh	x5-x27
Gemini 2.5 Pro (thinking)	2-12 Wh	x7-x40
GPT-5（中位数，URI估算）	18.9 Wh	x63
DeepSeek-R1（长请求，直接测量）	33.6 Wh	x112
o3（长请求，直接测量）	39.2 Wh	x131
Claude Code（中位会话，已测量）	41 Wh	x137
Deep Research o3（完整报告）	35-120 Wh	x117-x400
Sora 2（10秒片段，关闭前）	90-936 Wh	x300-x3,120

从最轻量到最重量的请求，差距达x18,000。这不是变化——而是截然不同的消耗世界，伪装在同一个聊天界面之下。

我能做什么？

作为用户： 当你不需要时，关闭reasoning模式。大多数日常请求——写作、搜索、摘要、翻译——在没有thinking的情况下会更好更快地解决。将reasoning留给真正需要它的问题：复杂分析、困难代码、深度研究。
作为技术团队负责人： 建立模型级联策略：Flash-Lite/mini用于常规任务，标准模型用于一般任务，只有在有明确ROI时才使用reasoning。这可以在不影响结果质量的情况下将团队能耗降低80-90%。
作为开发者： 在你的集成中默认关闭thinking。使用thinking: "off"或等效设置作为默认值，只有当任务需要时才启用。实施reasoning token预算。并考虑更轻量的智能体，如Aider（比Claude Code少用x4的tokens完成等效任务）。
作为监管者： 默认启用reasoning是在大规模上不必要消耗能源的典型案例。要求提供商将高效模式作为默认选项——就像家电的ECO模式——的法规，将对全球AI能耗产生可测量的影响。

Reasoning vs. 快速回答：能耗多x130的那次请求

能量倍增器：reasoning vs. 快速回答（基准 = 0.3 Wh）

什么是reasoning，为什么它这么贵

数据：逐模型分析

代码智能体：循环中的reasoning

被浪费tokens的问题

Deep Research：替代分析师的那次请求

“默认thinking”的问题

终极倍增器表格

我能做什么？

来源

继续探索 AISHA

Una imagen de IA consume lo mismo que cargar tu móvil 4 veces

Solo existen 10 mediciones reales del consumo de IA en el mundo

¿Cuánta energía consume la IA que usas cada día?

下一步

计算您使用 AI 的大致影响。