Reasoning vs. snabbt svar: förfrågan som förbrukar x130 mer

AI-reasoning — förmågan att 'tänka innan man svarar' — multiplicerar energiförbrukningen mellan x 10 och x 500 beroende på modell och uppgift. Reasoning-modeller förbrukar i genomsnitt x 30 mer än standardmodeller. Kodagenter når 41 Wh per medianssession (x 137). Problemet: många modeller aktiverar reasoning som standard, även när det inte behövs.

39,2 Wh. Det är vad en lång reasoning-förfrågan till o3-modellen från OpenAI förbrukar — direkt mätning, hög tillförlitlighet. Det är x131 mer än en enkel textförfrågan (0,3 Wh). Samma energi som att ladda din smartphone nästan tre gånger.

Och o3 är inte det extrema fallet. AI Energy Score v2 från Hugging Face fann att reasoning-modeller i genomsnitt förbrukar x30 mer än standardmodellerna. Vissa når x700.

Skillnaden mellan att ställa en fråga till en AI och att be den tänka är inte gradvis. Den är av storleksordningar.

Vad reasoning är och varför det kostar så mycket

Sedan 2024 integrerar de ledande AI-modellerna ett “reasoning”- eller “thinking”-läge: istället för att svara omedelbart genererar modellen en intern tankkedja — ibland tusentals osynliga tokens — innan den producerar det slutliga svaret.

Denna process är beräkningsmässigt mycket dyr eftersom:

Den genererar dolda tokens: Modellen kan producera 10-100 gånger fler interna tokens än den visar användaren. Varje token förbrukar energi även om du aldrig ser den.
Den aktiverar ytterligare lager: Reasoning-modeller aktiverar vanligtvis fler parametrar, fler uppmärksamhetslager och fler interna verifikationscykler.
Den skalas med komplexitet: Till skillnad från ett snabbt svar (relativt fast kostnad) skalas reasoning med problemets svårighetsgrad. En komplex fråga kan generera 10 minuter av internt “tänkande”.

Dauner och Socher dokumenterade att reasoning-modeller emitterar upp till x50 mer CO₂ än koncisa modeller, med ett fall av 37.575 tokens för ett enda svar.

Datan: modell för modell

AI Energy Score v2 från Hugging Face (december 2025), baserad på direktmätningar på H100-hårdvara, ger de mest solida datan:

Modell	Utan reasoning	Med reasoning	Multiplikator
DeepSeek-R1-Distill-Llama-70B	0,050 Wh	7,63 Wh	x154
Phi-4-reasoning-plus	0,018 Wh	9,46 Wh	x514

Det är verkliga mätningar, inte uppskattningar. Och de bekräftar att reasoning inte är en marginalkostnad — det är ett skalskifte.

De kalibrerade uppskattningarna för slutna kommersiella modeller visar samma mönster:

Modell	Utan reasoning	Med reasoning
GPT-5	0,4-1,0 Wh	8-45 Wh
GPT-5.4	0,5-1,2 Wh	4-18 Wh
Claude Sonnet 4.6	0,25-0,6 Wh	1,5-8 Wh
Claude Opus 4.6	0,6-1,5 Wh	5-20 Wh
Gemini 2.5 Pro	0,25-0,6 Wh	2-12 Wh
Gemini 2.5 Flash	0,12-0,25 Wh	0,6-2,5 Wh
DeepSeek-V3.2	0,08-0,18 Wh	1,5-8 Wh

Gemini 2.5 Flash-Lite är det anmärkningsvärda undantaget: även med aktivt thinking håller den sig vid 0,2-0,8 Wh — och visar att effektivt reasoning är möjligt.

Reasoning är inte gratis. Det är en kostnadsmultiplikator som sträcker sig från x10 till x500 beroende på modell. Varje gång du aktiverar “thinking” väljer du — medvetet eller omedvetet — att förbruka en storleksordning mer energi.

Kodagenter: reasoning i loopar

Om punktuellt reasoning redan är dyrt, driver kodagenter den kostnaden till det extrema: de tillämpar reasoning iterativt, i loopar som kan pågå tiotals minuter, läsa filer, köra kommandon, verifiera resultat och börja om.

Simon P. Couch mätte i januari 2026 den faktiska förbrukningen av Claude Code i programmeringssessioner:

Mediansession: 592 439 tokens i 24 interaktiva utbyten
Förbrukning per session: 41 Wh — x137 baslinjen
Intensiv daglig användning (2-3 samtidiga instanser): ~1 300 Wh — motsvarigheten till en diskmaskinscykel

De andra agenterna opererar i liknande intervall:

Claude Code + Opus 4.6: 45-70 Wh per session (x150-x233)
GPT-5.3-Codex: 12-40 Wh per uppgift (x40-x133)
Devin 2.0: 10-60 Wh per autonom uppgift (x33-x200)
Cursor AI: 5-25 Wh per intensiv session (x17-x83)
GitHub Copilot Agent: 3-15 Wh per PR-flöde (x10-x50)
Aider: 2-9 Wh per uppgift (x7-x30)

Problemet med slösade tokens

Morph publicerade i april 2026 en avslöjande analys: 70% av de tokens som förbrukas av kodagenter är slöseri:

35-45% vid filläsning
15-25% vid verktygsutdata
15-20% vid kontextvidaresändning
10-15% vid internt reasoning
Endast 5-15% genererar verklig kod

En fix av ett enda tecken förbrukade mer än 21 000 ingångstokens. Claude Code använder x4,2 fler tokens än Aider för identiska uppgifter (479 000 vs ~105 000).

Deep Research: förfrågan som ersätter en analytiker

Deep Research-system representerar det extrema av reasoning: en enda fråga utlöser dussintals webbsökningar, sidläsningar, kodkörningar och iterativ syntes. Resultatet är en forskningsrapport — och energikostnaden speglar det.

System	Energi per rapport	Multiplikator
OpenAI DR (o3)	35-120 Wh	x117-x400
Gemini Deep Research	20-80 Wh	x67-x267
Claude Research	20-70 Wh	x67-x233
Perplexity Deep Research	15-60 Wh	x50-x200
OpenAI DR (o4-mini)	8-25 Wh	x27-x83
Grok DeepSearch	8-30 Wh	x27-x100

Simon Willison dokumenterade en Deep Research-session med o4-mini: 60 506 ingångstokens, 22 883 utgångstokens (varav 89% var interna reasoning-tokens), 77 verktygsanrop (45 sökningar + 24 sidbesök + 12 kodkörningar). Kostnad: ~$1,10.

Ett exempel från Perplexity: 7 ingångstokens från användaren, 3 847 utgångstokens, men 308 156 osynliga reasoning-tokens. Reasoning stod för mellan 54% och 78% av den totala kostnaden.

Problemet med “standard-thinking”

Här ligger den verkliga risken: flera modeller aktiverar reasoning som standard, även för frågor som inte behöver det.

Claude Sonnet 4.6 har läget “adaptive thinking” aktiverat som standard. En enkel förfrågan som kunde lösas på 0,3 Wh bearbetas med onödigt reasoning och förbrukar 1,5-8 Wh.
GPT-5 använder en router som blandar snabba svar och reasoning enligt eget omdöme — inte användarens.
Claude Opus 4.6 arbetar som standard i thinking-läge, även om priset sänks: att sänka priset motsvarar inte att sänka energiförbrukningen.

Det är som om en bil hade turbon permanent aktiverad, även för att hämta bröd.

Reasoning-läget borde vara opt-in, inte opt-out. Att aktivera det som standard för alla förfrågningar är systematisk energislöseri i skala med hundratals miljoner användare.

Den definitiva multiplikatortabellen

För att sätta allt i perspektiv, här är den fullständiga skalan från den lättaste till den tyngsta förfrågan:

Åtgärd	Energi	Multiplikator
Gemini 2.5 Flash-Lite (snabb förfrågan)	0,05 Wh	x0,17
Enkel textförfrågan (referens)	0,3 Wh	x1
Claude Sonnet 4.6 (adaptive/high)	1,5-8 Wh	x5-x27
Gemini 2.5 Pro (thinking)	2-12 Wh	x7-x40
GPT-5 (median, URI-uppskattning)	18,9 Wh	x63
DeepSeek-R1 (lång, direkt mätning)	33,6 Wh	x112
o3 (lång, direkt mätning)	39,2 Wh	x131
Claude Code (mediansession, uppmätt)	41 Wh	x137
Deep Research o3 (fullständig rapport)	35-120 Wh	x117-x400
Sora 2 (10s-klipp, före nedstängning)	90-936 Wh	x300-x3 120

Från den lättaste till den tyngsta förfrågan finns en faktor på x18 000. Det är inte variationer — det är helt olika förbrukningsvärldar förklädda under samma chattgränssnitt.

Vad kan jag göra?

Som användare: Inaktivera reasoning-läget när du inte behöver det. De flesta vardagliga förfrågningar — skrivande, sökningar, sammanfattningar, översättningar — löser sig bättre och snabbare utan thinking. Reservera reasoning för problem som verkligen kräver det: komplexa analyser, svår kod, djup research.
Som ledare för ett tekniskt team: Upprätta en policy för modellkaskader: Flash-Lite/mini för rutinuppgifter, standardmodell för allmänna uppgifter, reasoning endast när det finns en tydlig ROI. Det kan minska teamets förbrukning med 80-90% utan att påverka resultatkvaliteten.
Som utvecklare: Inaktivera thinking som standard i dina integrationer. Använd thinking: "off" eller motsvarande som default och aktivera det bara när uppgiften motiverar det. Implementera reasoning-tokenbudgetar. Och överväg lättare agenter som Aider (x4 färre tokens än Claude Code för likvärdiga uppgifter).
Som regelgivare: Reasoning aktiverat som standard är ett tydligt fall av onödig energiförbrukning i massiv skala. En förordning som krävde att leverantörer erbjuder det effektiva läget som standardalternativ — som ECO-läget på hushållsapparater — skulle ha en mätbar inverkan på global AI-förbrukning.

Reasoning vs. snabbt svar: förfrågan som förbrukar x130 mer

Energimultiplikator: reasoning vs. snabbt svar (bas = 0,3 Wh)

Vad reasoning är och varför det kostar så mycket

Datan: modell för modell

Kodagenter: reasoning i loopar

Problemet med slösade tokens

Deep Research: förfrågan som ersätter en analytiker

Problemet med “standard-thinking”

Den definitiva multiplikatortabellen

Vad kan jag göra?

Källor

Fortsätt utforska AISHA

Una imagen de IA consume lo mismo que cargar tu móvil 4 veces

Solo existen 10 mediciones reales del consumo de IA en el mundo

¿Cuánta energía consume la IA que usas cada día?

Nästa steg

Beräkna den ungefärliga påverkan av din AI-användning.