Gemini 2.5 Flash-Lite (snabb förfrågan)
0,17 x
Förbrukning
Hur mycket energi det kostar att AI verkligen 'tänker' — och varför reasoning-läget aktiverat som standard är ett problem
En lång reasoning-förfrågan till OpenAIs o3-modell förbrukar 39,2 Wh — direkt mätning. Det är x 131 mer än en enkel textförfrågan (0,3 Wh). Och det finns modeller där multiplikatorn når x 514.
AI-reasoning — förmågan att 'tänka innan man svarar' — multiplicerar energiförbrukningen mellan x 10 och x 500 beroende på modell och uppgift. Reasoning-modeller förbrukar i genomsnitt x 30 mer än standardmodeller. Kodagenter når 41 Wh per medianssession (x 137). Problemet: många modeller aktiverar reasoning som standard, även när det inte behövs.
x 131
o3 lång reasoning-multiplikator (uppmätt)
x 30
Genomsnitt reasoning-modeller vs. standard (HF)
41 Wh
Mediansession Claude Code (uppmätt)
70 %
Slösade tokens i kodagenter
39,2 Wh. Det är vad en lång reasoning-förfrågan till o3-modellen från OpenAI förbrukar — direkt mätning, hög tillförlitlighet. Det är x131 mer än en enkel textförfrågan (0,3 Wh). Samma energi som att ladda din smartphone nästan tre gånger.
Och o3 är inte det extrema fallet. AI Energy Score v2 från Hugging Face fann att reasoning-modeller i genomsnitt förbrukar x30 mer än standardmodellerna. Vissa når x700.
Skillnaden mellan att ställa en fråga till en AI och att be den tänka är inte gradvis. Den är av storleksordningar.
Sedan 2024 integrerar de ledande AI-modellerna ett “reasoning”- eller “thinking”-läge: istället för att svara omedelbart genererar modellen en intern tankkedja — ibland tusentals osynliga tokens — innan den producerar det slutliga svaret.
Denna process är beräkningsmässigt mycket dyr eftersom:
Dauner och Socher dokumenterade att reasoning-modeller emitterar upp till x50 mer CO₂ än koncisa modeller, med ett fall av 37.575 tokens för ett enda svar.
AI Energy Score v2 från Hugging Face (december 2025), baserad på direktmätningar på H100-hårdvara, ger de mest solida datan:
| Modell | Utan reasoning | Med reasoning | Multiplikator |
|---|---|---|---|
| DeepSeek-R1-Distill-Llama-70B | 0,050 Wh | 7,63 Wh | x154 |
| Phi-4-reasoning-plus | 0,018 Wh | 9,46 Wh | x514 |
Det är verkliga mätningar, inte uppskattningar. Och de bekräftar att reasoning inte är en marginalkostnad — det är ett skalskifte.
De kalibrerade uppskattningarna för slutna kommersiella modeller visar samma mönster:
| Modell | Utan reasoning | Med reasoning |
|---|---|---|
| GPT-5 | 0,4-1,0 Wh | 8-45 Wh |
| GPT-5.4 | 0,5-1,2 Wh | 4-18 Wh |
| Claude Sonnet 4.6 | 0,25-0,6 Wh | 1,5-8 Wh |
| Claude Opus 4.6 | 0,6-1,5 Wh | 5-20 Wh |
| Gemini 2.5 Pro | 0,25-0,6 Wh | 2-12 Wh |
| Gemini 2.5 Flash | 0,12-0,25 Wh | 0,6-2,5 Wh |
| DeepSeek-V3.2 | 0,08-0,18 Wh | 1,5-8 Wh |
Gemini 2.5 Flash-Lite är det anmärkningsvärda undantaget: även med aktivt thinking håller den sig vid 0,2-0,8 Wh — och visar att effektivt reasoning är möjligt.
Reasoning är inte gratis. Det är en kostnadsmultiplikator som sträcker sig från x10 till x500 beroende på modell. Varje gång du aktiverar “thinking” väljer du — medvetet eller omedvetet — att förbruka en storleksordning mer energi.
Om punktuellt reasoning redan är dyrt, driver kodagenter den kostnaden till det extrema: de tillämpar reasoning iterativt, i loopar som kan pågå tiotals minuter, läsa filer, köra kommandon, verifiera resultat och börja om.
Simon P. Couch mätte i januari 2026 den faktiska förbrukningen av Claude Code i programmeringssessioner:
De andra agenterna opererar i liknande intervall:
Morph publicerade i april 2026 en avslöjande analys: 70% av de tokens som förbrukas av kodagenter är slöseri:
En fix av ett enda tecken förbrukade mer än 21 000 ingångstokens. Claude Code använder x4,2 fler tokens än Aider för identiska uppgifter (479 000 vs ~105 000).
Deep Research-system representerar det extrema av reasoning: en enda fråga utlöser dussintals webbsökningar, sidläsningar, kodkörningar och iterativ syntes. Resultatet är en forskningsrapport — och energikostnaden speglar det.
| System | Energi per rapport | Multiplikator |
|---|---|---|
| OpenAI DR (o3) | 35-120 Wh | x117-x400 |
| Gemini Deep Research | 20-80 Wh | x67-x267 |
| Claude Research | 20-70 Wh | x67-x233 |
| Perplexity Deep Research | 15-60 Wh | x50-x200 |
| OpenAI DR (o4-mini) | 8-25 Wh | x27-x83 |
| Grok DeepSearch | 8-30 Wh | x27-x100 |
Simon Willison dokumenterade en Deep Research-session med o4-mini: 60 506 ingångstokens, 22 883 utgångstokens (varav 89% var interna reasoning-tokens), 77 verktygsanrop (45 sökningar + 24 sidbesök + 12 kodkörningar). Kostnad: ~$1,10.
Ett exempel från Perplexity: 7 ingångstokens från användaren, 3 847 utgångstokens, men 308 156 osynliga reasoning-tokens. Reasoning stod för mellan 54% och 78% av den totala kostnaden.
Här ligger den verkliga risken: flera modeller aktiverar reasoning som standard, även för frågor som inte behöver det.
Det är som om en bil hade turbon permanent aktiverad, även för att hämta bröd.
Reasoning-läget borde vara opt-in, inte opt-out. Att aktivera det som standard för alla förfrågningar är systematisk energislöseri i skala med hundratals miljoner användare.
För att sätta allt i perspektiv, här är den fullständiga skalan från den lättaste till den tyngsta förfrågan:
| Åtgärd | Energi | Multiplikator |
|---|---|---|
| Gemini 2.5 Flash-Lite (snabb förfrågan) | 0,05 Wh | x0,17 |
| Enkel textförfrågan (referens) | 0,3 Wh | x1 |
| Claude Sonnet 4.6 (adaptive/high) | 1,5-8 Wh | x5-x27 |
| Gemini 2.5 Pro (thinking) | 2-12 Wh | x7-x40 |
| GPT-5 (median, URI-uppskattning) | 18,9 Wh | x63 |
| DeepSeek-R1 (lång, direkt mätning) | 33,6 Wh | x112 |
| o3 (lång, direkt mätning) | 39,2 Wh | x131 |
| Claude Code (mediansession, uppmätt) | 41 Wh | x137 |
| Deep Research o3 (fullständig rapport) | 35-120 Wh | x117-x400 |
| Sora 2 (10s-klipp, före nedstängning) | 90-936 Wh | x300-x3 120 |
Från den lättaste till den tyngsta förfrågan finns en faktor på x18 000. Det är inte variationer — det är helt olika förbrukningsvärldar förklädda under samma chattgränssnitt.
Som användare: Inaktivera reasoning-läget när du inte behöver det. De flesta vardagliga förfrågningar — skrivande, sökningar, sammanfattningar, översättningar — löser sig bättre och snabbare utan thinking. Reservera reasoning för problem som verkligen kräver det: komplexa analyser, svår kod, djup research.
Som ledare för ett tekniskt team: Upprätta en policy för modellkaskader: Flash-Lite/mini för rutinuppgifter, standardmodell för allmänna uppgifter, reasoning endast när det finns en tydlig ROI. Det kan minska teamets förbrukning med 80-90% utan att påverka resultatkvaliteten.
Som utvecklare: Inaktivera thinking som standard i dina integrationer. Använd thinking: "off" eller motsvarande som default och aktivera det bara när uppgiften motiverar det. Implementera reasoning-tokenbudgetar. Och överväg lättare agenter som Aider (x4 färre tokens än Claude Code för likvärdiga uppgifter).
Som regelgivare: Reasoning aktiverat som standard är ett tydligt fall av onödig energiförbrukning i massiv skala. En förordning som krävde att leverantörer erbjuder det effektiva läget som standardalternativ — som ECO-läget på hushållsapparater — skulle ha en mätbar inverkan på global AI-förbrukning.
Relaterade
Por qué generar imágenes con IA cuesta entre 3 y 33 veces más energía que una consulta de texto — y qué puedes hacer al respecto
Inventario forense de todo lo que sabemos — y lo que no — sobre la energía que consume la inteligencia artificial
La guía definitiva del consumo energético por modelo y modalidad en 2026
Vår kalkylator hjälper dig att sätta frågor, bilder, resonemang och agenter i ett sammanhang.
Öppna kalkylator