两次AI请求的抽象图示——一次像闪电般快速,另一次像迷宫般复杂昂贵,在深色背景上呈现青色和琥珀色调

Reasoning vs. 快速回答:能耗多x130的那次请求

让AI真正'思考'需要多少能量——以及为什么默认启用reasoning模式是个问题

作者 AISHA · 2026年4月4日 · 3 分钟阅读

向OpenAI的o3模型发送一次长reasoning请求消耗39.2 Wh——直接测量。这比简单文本请求(0.3 Wh)多x 131。而某些模型的倍数甚至达到x 514。

AI reasoning——'在回答前先思考'的能力——根据模型和任务不同,将能耗倍增x 10至x 500。Reasoning模型平均比标准模型多消耗x 30。代码智能体每次中位会话达到41 Wh(x 137)。问题在于:许多模型默认启用reasoning,即使并不需要。

能量倍增器:reasoning vs. 快速回答(基准 = 0.3 Wh)

Gemini 2.5 Flash-Lite(快速请求)

0.17 x

Claude Sonnet 4.6(无thinking)

1.5 x

Claude Sonnet 4.6 (adaptive/high)

15 x

GPT-5(中位数,URI估算)

63 x

DeepSeek-R1(长请求,已测量)

112 x

o3(长请求,已测量)

131 x

Claude Code(中位会话)

137 x

Phi-4-reasoning-plus(测量最大值)

514 x

x 131

o3长reasoning倍增器(已测量)

x 30

Reasoning模型vs.标准模型平均值(HF)

41 Wh

Claude Code中位会话(已测量)

70 %

代码智能体中被浪费的tokens

39.2 Wh。 这是向OpenAIo3模型发送一次长reasoning请求的能耗——直接测量,可信度高。这比简单文本请求(0.3 Wh)多x131。相当于给你的智能手机充电近三次的能量。

而o3并非极端案例。Hugging Face的AI Energy Score v2发现,reasoning模型平均比标准模型多消耗x30。某些甚至达到x700

向AI提问和要求它思考之间的差距,不是渐进式的。而是数量级的差距。


什么是reasoning,为什么它这么贵

自2024年以来,主流AI模型都集成了”reasoning”或”thinking”模式:模型不会立即回答,而是先生成一条内部思维链——有时是数千个不可见的tokens——然后再产出最终答案。

这个过程在计算上非常昂贵,因为:

  • 生成隐藏tokens: 模型可能产生比展示给用户多10-100倍的内部tokens。每个token都消耗能量,即使你永远看不到它。
  • 激活额外层: Reasoning模型通常激活更多参数、更多注意力层和更多内部验证循环。
  • 随复杂度扩展: 不同于快速回答(成本相对固定),reasoning随问题难度扩展。一个复杂问题可能产生10分钟的内部”思考”。

Dauner和Socher记录了reasoning模型比简洁模型多排放高达x50的CO₂,其中一个案例中单次回答就产生了37,575个tokens


数据:逐模型分析

Hugging Face的AI Energy Score v2(2025年12月),基于H100硬件的直接测量,提供了最扎实的数据:

模型无reasoning有reasoning倍增器
DeepSeek-R1-Distill-Llama-70B0.050 Wh7.63 Whx154
Phi-4-reasoning-plus0.018 Wh9.46 Whx514

这些是真实测量数据,不是估算。它们证实了reasoning不是边际成本——而是规模转变

对封闭商业模型的校准估算呈现出相同的模式:

模型无reasoning有reasoning
GPT-50.4-1.0 Wh8-45 Wh
GPT-5.40.5-1.2 Wh4-18 Wh
Claude Sonnet 4.60.25-0.6 Wh1.5-8 Wh
Claude Opus 4.60.6-1.5 Wh5-20 Wh
Gemini 2.5 Pro0.25-0.6 Wh2-12 Wh
Gemini 2.5 Flash0.12-0.25 Wh0.6-2.5 Wh
DeepSeek-V3.20.08-0.18 Wh1.5-8 Wh

Gemini 2.5 Flash-Lite是值得注意的例外:即使开启thinking,仍保持在0.2-0.8 Wh——证明高效reasoning是可能的。

Reasoning不是免费的。它是一个成本倍增器,根据模型从x10到x500不等。每次你激活”thinking”,你就在——有意或无意地——选择消耗高一个数量级的能量。


代码智能体:循环中的reasoning

如果单次reasoning已经很贵,代码智能体将这种成本推向极致:它们迭代地应用reasoning,在可持续数十分钟的循环中,读取文件、执行命令、验证结果,然后重新开始。

Simon P. Couch于2026年1月测量了Claude Code在编程会话中的实际能耗:

  • 中位会话: 24次交互中共592,439个tokens
  • 每次会话能耗: 41 Wh — 基准线的x137
  • 每日高强度使用(2-3个同时实例):~1,300 Wh — 相当于一次洗碗机循环

其他智能体在类似范围内运行:

  • Claude Code + Opus 4.6: 每次会话45-70 Wh(x150-x233)
  • GPT-5.3-Codex: 每次任务12-40 Wh(x40-x133)
  • Devin 2.0: 每次自主任务10-60 Wh(x33-x200)
  • Cursor AI: 每次高强度会话5-25 Wh(x17-x83)
  • GitHub Copilot Agent: 每次PR工作流3-15 Wh(x10-x50)
  • Aider: 每次任务2-9 Wh(x7-x30)

被浪费tokens的问题

Morph于2026年4月发布了一项揭示性分析:代码智能体消耗的70%的tokens是浪费

  • 35-45% 用于读取文件
  • 15-25% 用于工具输出
  • 15-20% 用于上下文重传
  • 10-15% 用于内部reasoning
  • 只有5-15%生成真正的代码

修复单个字符的bug消耗了超过21,000个输入tokens。Claude Code比Aider多使用x4.2的tokens来完成相同任务(479,000 vs ~105,000)。


Deep Research:替代分析师的那次请求

Deep Research系统代表reasoning的极致:一个问题触发数十次网络搜索、页面阅读、代码执行和迭代综合。结果是一份研究报告——其能源成本也如实反映了这一点。

系统每份报告能耗倍增器
OpenAI DR (o3)35-120 Whx117-x400
Gemini Deep Research20-80 Whx67-x267
Claude Research20-70 Whx67-x233
Perplexity Deep Research15-60 Whx50-x200
OpenAI DR (o4-mini)8-25 Whx27-x83
Grok DeepSearch8-30 Whx27-x100

Simon Willison记录了一次使用o4-mini的Deep Research会话:60,506个输入tokens,22,883个输出tokens(其中**89%**是内部reasoning tokens),77次工具调用(45次搜索 + 24次页面访问 + 12次代码执行)。费用:约$1.10。

Perplexity的一个例子:用户输入7个tokens,输出3,847个tokens,但有308,156个不可见的reasoning tokens。Reasoning占总成本的54%至78%


“默认thinking”的问题

这里才是真正的风险:多个模型默认启用reasoning,即使对于不需要它的问题也是如此。

  • Claude Sonnet 4.6默认启用”adaptive thinking”模式。一个本可用0.3 Wh解决的简单请求,却经过不必要的reasoning处理,消耗1.5-8 Wh。
  • GPT-5使用路由器按自身判断混合快速回答和reasoning——而非用户的判断。
  • Claude Opus 4.6默认在thinking模式下运行,即使降价也如此:降价并不等于降低能耗。

就像一辆车永久开着涡轮增压,即使只是去买面包。

Reasoning模式应该是opt-in,而非opt-out。默认对所有请求启用它,是在数亿用户规模上系统性地浪费能源。


终极倍增器表格

为了全面展示,以下是从最轻量到最重量请求的完整量表:

操作能量倍增器
Gemini 2.5 Flash-Lite(快速请求)0.05 Whx0.17
简单文本请求(参考基准)0.3 Whx1
Claude Sonnet 4.6 (adaptive/high)1.5-8 Whx5-x27
Gemini 2.5 Pro (thinking)2-12 Whx7-x40
GPT-5(中位数,URI估算)18.9 Whx63
DeepSeek-R1(长请求,直接测量)33.6 Whx112
o3(长请求,直接测量)39.2 Whx131
Claude Code(中位会话,已测量)41 Whx137
Deep Research o3(完整报告)35-120 Whx117-x400
Sora 2(10秒片段,关闭前)90-936 Whx300-x3,120

从最轻量到最重量的请求,差距达x18,000。这不是变化——而是截然不同的消耗世界,伪装在同一个聊天界面之下。


我能做什么?

  • 作为用户: 当你不需要时,关闭reasoning模式。大多数日常请求——写作、搜索、摘要、翻译——在没有thinking的情况下会更好更快地解决。将reasoning留给真正需要它的问题:复杂分析、困难代码、深度研究。

  • 作为技术团队负责人: 建立模型级联策略:Flash-Lite/mini用于常规任务,标准模型用于一般任务,只有在有明确ROI时才使用reasoning。这可以在不影响结果质量的情况下将团队能耗降低80-90%

  • 作为开发者: 在你的集成中默认关闭thinking。使用thinking: "off"或等效设置作为默认值,只有当任务需要时才启用。实施reasoning token预算。并考虑更轻量的智能体,如Aider(比Claude Code少用x4的tokens完成等效任务)。

  • 作为监管者: 默认启用reasoning是在大规模上不必要消耗能源的典型案例。要求提供商将高效模式作为默认选项——就像家电的ECO模式——的法规,将对全球AI能耗产生可测量的影响。

来源

相关内容

继续探索 AISHA

下一步

计算您使用 AI 的大致影响。

我们的计算器帮助您将查询、图像、推理和智能体放入背景进行评估。

打开计算器