Abstrakt illustration av två AI-förfrågningar — en snabb som en blixt, den andra labyrintisk och kostsam, i cyan- och bärnstensfärger på mörk bakgrund

Reasoning vs. snabbt svar: förfrågan som förbrukar x130 mer

Hur mycket energi det kostar att AI verkligen 'tänker' — och varför reasoning-läget aktiverat som standard är ett problem

Av AISHA · 4 april 2026 · 6 min läsning

En lång reasoning-förfrågan till OpenAIs o3-modell förbrukar 39,2 Wh — direkt mätning. Det är x 131 mer än en enkel textförfrågan (0,3 Wh). Och det finns modeller där multiplikatorn når x 514.

AI-reasoning — förmågan att 'tänka innan man svarar' — multiplicerar energiförbrukningen mellan x 10 och x 500 beroende på modell och uppgift. Reasoning-modeller förbrukar i genomsnitt x 30 mer än standardmodeller. Kodagenter når 41 Wh per medianssession (x 137). Problemet: många modeller aktiverar reasoning som standard, även när det inte behövs.

Energimultiplikator: reasoning vs. snabbt svar (bas = 0,3 Wh)

Gemini 2.5 Flash-Lite (snabb förfrågan)

0,17 x

Claude Sonnet 4.6 (inget thinking)

1,5 x

Claude Sonnet 4.6 (adaptive/high)

15 x

GPT-5 (median, URI-uppskattning)

63 x

DeepSeek-R1 (lång, uppmätt)

112 x

o3 (lång, uppmätt)

131 x

Claude Code (mediansession)

137 x

Phi-4-reasoning-plus (maximum uppmätt)

514 x

x 131

o3 lång reasoning-multiplikator (uppmätt)

x 30

Genomsnitt reasoning-modeller vs. standard (HF)

41 Wh

Mediansession Claude Code (uppmätt)

70 %

Slösade tokens i kodagenter

39,2 Wh. Det är vad en lång reasoning-förfrågan till o3-modellen från OpenAI förbrukar — direkt mätning, hög tillförlitlighet. Det är x131 mer än en enkel textförfrågan (0,3 Wh). Samma energi som att ladda din smartphone nästan tre gånger.

Och o3 är inte det extrema fallet. AI Energy Score v2 från Hugging Face fann att reasoning-modeller i genomsnitt förbrukar x30 mer än standardmodellerna. Vissa når x700.

Skillnaden mellan att ställa en fråga till en AI och att be den tänka är inte gradvis. Den är av storleksordningar.


Vad reasoning är och varför det kostar så mycket

Sedan 2024 integrerar de ledande AI-modellerna ett “reasoning”- eller “thinking”-läge: istället för att svara omedelbart genererar modellen en intern tankkedja — ibland tusentals osynliga tokens — innan den producerar det slutliga svaret.

Denna process är beräkningsmässigt mycket dyr eftersom:

  • Den genererar dolda tokens: Modellen kan producera 10-100 gånger fler interna tokens än den visar användaren. Varje token förbrukar energi även om du aldrig ser den.
  • Den aktiverar ytterligare lager: Reasoning-modeller aktiverar vanligtvis fler parametrar, fler uppmärksamhetslager och fler interna verifikationscykler.
  • Den skalas med komplexitet: Till skillnad från ett snabbt svar (relativt fast kostnad) skalas reasoning med problemets svårighetsgrad. En komplex fråga kan generera 10 minuter av internt “tänkande”.

Dauner och Socher dokumenterade att reasoning-modeller emitterar upp till x50 mer CO₂ än koncisa modeller, med ett fall av 37.575 tokens för ett enda svar.


Datan: modell för modell

AI Energy Score v2 från Hugging Face (december 2025), baserad på direktmätningar på H100-hårdvara, ger de mest solida datan:

ModellUtan reasoningMed reasoningMultiplikator
DeepSeek-R1-Distill-Llama-70B0,050 Wh7,63 Whx154
Phi-4-reasoning-plus0,018 Wh9,46 Whx514

Det är verkliga mätningar, inte uppskattningar. Och de bekräftar att reasoning inte är en marginalkostnad — det är ett skalskifte.

De kalibrerade uppskattningarna för slutna kommersiella modeller visar samma mönster:

ModellUtan reasoningMed reasoning
GPT-50,4-1,0 Wh8-45 Wh
GPT-5.40,5-1,2 Wh4-18 Wh
Claude Sonnet 4.60,25-0,6 Wh1,5-8 Wh
Claude Opus 4.60,6-1,5 Wh5-20 Wh
Gemini 2.5 Pro0,25-0,6 Wh2-12 Wh
Gemini 2.5 Flash0,12-0,25 Wh0,6-2,5 Wh
DeepSeek-V3.20,08-0,18 Wh1,5-8 Wh

Gemini 2.5 Flash-Lite är det anmärkningsvärda undantaget: även med aktivt thinking håller den sig vid 0,2-0,8 Wh — och visar att effektivt reasoning är möjligt.

Reasoning är inte gratis. Det är en kostnadsmultiplikator som sträcker sig från x10 till x500 beroende på modell. Varje gång du aktiverar “thinking” väljer du — medvetet eller omedvetet — att förbruka en storleksordning mer energi.


Kodagenter: reasoning i loopar

Om punktuellt reasoning redan är dyrt, driver kodagenter den kostnaden till det extrema: de tillämpar reasoning iterativt, i loopar som kan pågå tiotals minuter, läsa filer, köra kommandon, verifiera resultat och börja om.

Simon P. Couch mätte i januari 2026 den faktiska förbrukningen av Claude Code i programmeringssessioner:

  • Mediansession: 592 439 tokens i 24 interaktiva utbyten
  • Förbrukning per session: 41 Whx137 baslinjen
  • Intensiv daglig användning (2-3 samtidiga instanser): ~1 300 Wh — motsvarigheten till en diskmaskinscykel

De andra agenterna opererar i liknande intervall:

  • Claude Code + Opus 4.6: 45-70 Wh per session (x150-x233)
  • GPT-5.3-Codex: 12-40 Wh per uppgift (x40-x133)
  • Devin 2.0: 10-60 Wh per autonom uppgift (x33-x200)
  • Cursor AI: 5-25 Wh per intensiv session (x17-x83)
  • GitHub Copilot Agent: 3-15 Wh per PR-flöde (x10-x50)
  • Aider: 2-9 Wh per uppgift (x7-x30)

Problemet med slösade tokens

Morph publicerade i april 2026 en avslöjande analys: 70% av de tokens som förbrukas av kodagenter är slöseri:

  • 35-45% vid filläsning
  • 15-25% vid verktygsutdata
  • 15-20% vid kontextvidaresändning
  • 10-15% vid internt reasoning
  • Endast 5-15% genererar verklig kod

En fix av ett enda tecken förbrukade mer än 21 000 ingångstokens. Claude Code använder x4,2 fler tokens än Aider för identiska uppgifter (479 000 vs ~105 000).


Deep Research: förfrågan som ersätter en analytiker

Deep Research-system representerar det extrema av reasoning: en enda fråga utlöser dussintals webbsökningar, sidläsningar, kodkörningar och iterativ syntes. Resultatet är en forskningsrapport — och energikostnaden speglar det.

SystemEnergi per rapportMultiplikator
OpenAI DR (o3)35-120 Whx117-x400
Gemini Deep Research20-80 Whx67-x267
Claude Research20-70 Whx67-x233
Perplexity Deep Research15-60 Whx50-x200
OpenAI DR (o4-mini)8-25 Whx27-x83
Grok DeepSearch8-30 Whx27-x100

Simon Willison dokumenterade en Deep Research-session med o4-mini: 60 506 ingångstokens, 22 883 utgångstokens (varav 89% var interna reasoning-tokens), 77 verktygsanrop (45 sökningar + 24 sidbesök + 12 kodkörningar). Kostnad: ~$1,10.

Ett exempel från Perplexity: 7 ingångstokens från användaren, 3 847 utgångstokens, men 308 156 osynliga reasoning-tokens. Reasoning stod för mellan 54% och 78% av den totala kostnaden.


Problemet med “standard-thinking”

Här ligger den verkliga risken: flera modeller aktiverar reasoning som standard, även för frågor som inte behöver det.

  • Claude Sonnet 4.6 har läget “adaptive thinking” aktiverat som standard. En enkel förfrågan som kunde lösas på 0,3 Wh bearbetas med onödigt reasoning och förbrukar 1,5-8 Wh.
  • GPT-5 använder en router som blandar snabba svar och reasoning enligt eget omdöme — inte användarens.
  • Claude Opus 4.6 arbetar som standard i thinking-läge, även om priset sänks: att sänka priset motsvarar inte att sänka energiförbrukningen.

Det är som om en bil hade turbon permanent aktiverad, även för att hämta bröd.

Reasoning-läget borde vara opt-in, inte opt-out. Att aktivera det som standard för alla förfrågningar är systematisk energislöseri i skala med hundratals miljoner användare.


Den definitiva multiplikatortabellen

För att sätta allt i perspektiv, här är den fullständiga skalan från den lättaste till den tyngsta förfrågan:

ÅtgärdEnergiMultiplikator
Gemini 2.5 Flash-Lite (snabb förfrågan)0,05 Whx0,17
Enkel textförfrågan (referens)0,3 Whx1
Claude Sonnet 4.6 (adaptive/high)1,5-8 Whx5-x27
Gemini 2.5 Pro (thinking)2-12 Whx7-x40
GPT-5 (median, URI-uppskattning)18,9 Whx63
DeepSeek-R1 (lång, direkt mätning)33,6 Whx112
o3 (lång, direkt mätning)39,2 Whx131
Claude Code (mediansession, uppmätt)41 Whx137
Deep Research o3 (fullständig rapport)35-120 Whx117-x400
Sora 2 (10s-klipp, före nedstängning)90-936 Whx300-x3 120

Från den lättaste till den tyngsta förfrågan finns en faktor på x18 000. Det är inte variationer — det är helt olika förbrukningsvärldar förklädda under samma chattgränssnitt.


Vad kan jag göra?

  • Som användare: Inaktivera reasoning-läget när du inte behöver det. De flesta vardagliga förfrågningar — skrivande, sökningar, sammanfattningar, översättningar — löser sig bättre och snabbare utan thinking. Reservera reasoning för problem som verkligen kräver det: komplexa analyser, svår kod, djup research.

  • Som ledare för ett tekniskt team: Upprätta en policy för modellkaskader: Flash-Lite/mini för rutinuppgifter, standardmodell för allmänna uppgifter, reasoning endast när det finns en tydlig ROI. Det kan minska teamets förbrukning med 80-90% utan att påverka resultatkvaliteten.

  • Som utvecklare: Inaktivera thinking som standard i dina integrationer. Använd thinking: "off" eller motsvarande som default och aktivera det bara när uppgiften motiverar det. Implementera reasoning-tokenbudgetar. Och överväg lättare agenter som Aider (x4 färre tokens än Claude Code för likvärdiga uppgifter).

  • Som regelgivare: Reasoning aktiverat som standard är ett tydligt fall av onödig energiförbrukning i massiv skala. En förordning som krävde att leverantörer erbjuder det effektiva läget som standardalternativ — som ECO-läget på hushållsapparater — skulle ha en mätbar inverkan på global AI-förbrukning.

Källor

Relaterade

Fortsätt utforska AISHA

Nästa steg

Beräkna den ungefärliga påverkan av din AI-användning.

Vår kalkylator hjälper dig att sätta frågor, bilder, resonemang och agenter i ett sammanhang.

Öppna kalkylator