Text (flash)
x0,17-x0,8
Förbrukning
Den definitiva guiden till energiförbrukning per modell och modalitet 2026
Att generera 10 sekunders video med Veo 3.1 kan förbruka lika mycket energi som en mikrovågsugn påslagen i 1–2 timmar.
Textförfrågningar ligger på ~0,3 Wh. Reasoning rör sig vanligtvis mellan x 5 och x 130. Bild mellan x 0,3 och x 14. Kommersiell video idag mellan x 133 och x 1 400. Kodagenter mellan x 20 och x 150. Effektiviteten förbättras varje år, men den totala förbrukningen ökar eftersom varje förbättring driver upp användningsvolymen (Jevons paradox).
Logaritmisk skala. Bredden använder ett konservativt referensvärde; till höger visas det dokumenterade intervallet i öppna källor (0,3 Wh = x1).
Det är Jevons paradox: om något blir billigare och effektivare används det mycket mer och den totala förbrukningen kan växa
| Serie | 2024 | 2025 | 2026 | 2027 | 2028 |
|---|---|---|---|---|---|
| Effektivitet per token (Wh) | 0,45 | 0,3 | 0,26 | 0,22 | 0,18 |
| Dagliga förfrågningar (miljarder) | 0,7 | 1,5 | 3,5 | 6 | 9 |
0,24 Wh
Enda direkta mätningen (Google Gemini)
x 133-x1.400
Kommersiell video idag vs text
x 46
Variation mellan bildmodeller
x 514
Extremt toppvärde i reasoning-benchmark (Phi-4)
Att generera 10 sekunders video med Veo 3.1 kan förbruka lika mycket energi som en mikrovågsugn påslagen i 1–2 timmar.
Den meningen är ingen retorisk överdrift. Det är ett uppmätt värde. Och det är bara toppen av isberget av en verklighet som AI-företagen helst inte kvantifierar offentligt.
På AISHA har vi samlat in, korsjämfört och verifierat alla tillgängliga mätningar fram till april 2026 — akademiska papers, produktionsdata, oberoende benchmarks — för att bygga den mest kompletta guiden på svenska om den verkliga energiförbrukningen hos artificiell intelligens.
Det här är vad vi vet.
För att kunna tala med jämförbara siffror behöver vi en utgångspunkt. Referensenheten är en standardförfrågan av text: ungefär 0,3 Wh (wattimmar).
Hur mycket är det? Den energi som en 10 watts LED-lampa förbrukar på mindre än två minuter. Det verkar obetydligt. Men när det multipliceras med miljarder dagliga förfrågningar världen över slutar den aggregerade påverkan att vara trivial.
Google är den enda leverantören som har publicerat en direkt produktionsmätning: 0,24 Wh som median för textförfrågningar till Gemini (augusti 2025, verklig infrastrukturmätning, inte uppskattning). Sam Altman hävdade att ChatGPT förbrukar 0,34 Wh i genomsnitt, men utan att publicera någon metodik. Anthropic har inte publicerat någonting alls.
Med den referensen på 0,3 Wh som bas (x1) kan vi jämföra allt annat.
Alla textmodeller förbrukar inte lika mycket. Skillnaden mellan den lättaste och den tyngsta överstiger 40 gånger. Denna tabell visar det:
| Modell | Förbrukning per förfrågan | Multiplikator |
|---|---|---|
| Gemini 2.5 Flash-Lite | 0,10 – 0,15 Wh | x0,3 – x0,5 |
| Llama 4 Scout | 0,15 – 0,30 Wh | x0,5 – x1 |
| DeepSeek V4 | 0,15 – 0,35 Wh | x0,5 – x1,2 |
| GPT-5-mini | 0,20 – 0,40 Wh | x0,7 – x1,3 |
| Mistral Large | 0,25 – 0,50 Wh | x0,8 – x1,7 |
| Claude Sonnet 4.6 | 0,40 – 0,90 Wh | x1,3 – x3 |
| GPT-5.4 | 0,50 – 1,20 Wh | x1,7 – x4 |
| Gemini 2.5 Ultra | 0,35 – 0,70 Wh | x1,2 – x2,3 |
| Claude Opus 4.6 | ~4 Wh (uppskattat) | ~x13 |
“Flash”- eller “mini”-modellerna är mellan 3 och 10 gånger effektivare än de fullständiga frontier-modellerna. För den absoluta majoriteten av vardagliga uppgifter — sammanfatta en text, skriva ett e-postmeddelande, svara på en faktafråga — räcker den lilla modellen.
Valet av modell är inte neutralt. Att välja fel kan multiplicera din förbrukning med 26 gånger för samma uppgift.
Revolutionen med “thinking models” — modeller som resonerar internt innan de svarar — har radikalt förändrat energiekvationen. De genererar tankekedja på tiotusentals tokens innan de ger ett svar, och den interna processen förbrukar energi.
Följande tabell samlar tillgängliga mätningar för de viktigaste reasoning-lägena:
| Läge | Förbrukning | Multiplikator vs. textbas |
|---|---|---|
| GPT-5.4 med reasoning | 4 – 18 Wh | x13 – x60 |
| Claude med Extended Thinking | 2 – 8 Wh | x7 – x27 |
| o3 (långa prompts) | ~39 Wh | ~x130 |
| Deep Research (vilken leverantör som helst) | 10 – 40 Wh | x33 – x133 |
I värsta fall förbrukar en enda förfrågan med reasoning lika mycket som 130 vanliga textförfrågningar.
Hugging Face AI Energy Score v2 (december 2025), som mäter 205 open source-modeller på GPU:er av typen H100, fann ännu mer extrema resultat:
Att aktivera reasoning-läget när det inte behövs är som att använda en 40-tons lastbil för att åka och köpa bröd.
Forskningen av Bertazzini et al. (juni 2025) mätte 17 diffusionsmodeller på en RTX 4090 och fann en variation på 46 gånger mellan den mest effektiva och den minst effektiva.
Här är ytterligheterna i spektrumet:
| Modell | Förbrukning per bild | Motsvarighet |
|---|---|---|
| LCM_SSD_1B (mest effektiv) | 0,086 Wh | ~0,3 textförfrågningar |
| Ideogram 3 | 0,8 – 2,5 Wh | 3 – 8 förfrågningar |
| Midjourney v7 | 1 – 4 Wh | 3 – 13 förfrågningar |
| DALL-E 4 | 2 – 6 Wh | 7 – 20 förfrågningar |
| Nativ bildgenerering GPT-4o | ~3 Wh | ~10 förfrågningar |
| Lumina (minst effektiv) | 4,08 Wh | ~14 förfrågningar |
Skillnaden mellan den billigaste och den dyraste modellen är skillnaden mellan att tända en ficklampa och tända en ugn.
Ett kontraintuitivt fynd: int8-kvantisering, som förväntas minska förbrukningen, ökar den faktiskt med upp till 64,5 % i vissa bildmodeller. Effektivitet är inte alltid vad det verkar.
700 miljoner bilder på en vecka. Det är vad användarna genererade när OpenAI lanserade den inbyggda bildgenereringen i GPT-4o. Det motsvarar ungefär 2 100 MWh enbart i bildgenerering, på sju dagar.
Om text är cykeln, så är video flygplanet. Forskningen av Delavande och Luccioni (september 2025) mätte 7 open source-videomodeller på H100 och dokumenterade ett intervall på 800 gånger mellan den billigaste och den dyraste.
Dessa siffror talar för sig själva:
| Modell | Längd | Förbrukning | Multiplikator vs. text |
|---|---|---|---|
| AnimateDiff (mest effektiv) | 2 sek | 0,14 Wh | x0,5 |
| Runway Gen-3 | 5 sek | 3 – 8 Wh | x10 – x27 |
| WAN2.1-14B | 5 sek | ~109 Wh | ~x363 |
| Kling 3.0 | 15 sek | ~400 Wh | ~x1 333 |
| Sora 2 | 10 sek | ~1 000 Wh | ~x3 333 |
944 Wh per 5-sekundersklipp. Det är vad Sora förbrukade — lika mycket energi som att ladda en smartphone under en månad. OpenAI stängde ner det den 24 mars 2026 efter att ha ackumulerat totala intäkter på 2,1 miljoner dollar mot uppskattade driftskostnader på 15 miljoner dollar per dag.
En teknisk detalj som förvärrar problemet: att fördubbla videolängden fyrdubblar energiförbrukningen. Förhållandet är inte linjärt — det är exponentiellt.
Passoni et al. (maj 2025) publicerade det enda paper som innehåller mätningar av ljudgenerering (text-till-ljud), med 7 modeller på NVIDIA A40 GPU:er:
Det oroande fyndet: nyare modeller förbrukar konsekvent mer energi än äldre. Branschen prioriterar kvalitet framför effektivitet, utan undantag.
Ett enda paper. Sju modeller. Noll data från kommersiella tjänster. Det är all transparens som finns idag inom generativt ljud.
Kodagenter representerar ett nytt paradigm för förbrukning. Simon P. Couch analyserade sessioner med Claude Code (januari 2026) och fann att en mediansession bearbetar 592 000 tokens och förbrukar ungefär 41 Wh — motsvarande 136 konventionella textförfrågningar.
Komplexa sessioner kan nå 50 till 200 Wh. En utvecklare som använder kodagenter under en hel arbetsdag kan förbruka lika mycket energi som ett genomsnittligt europeiskt hushåll på en dag.
En utvecklare med en kodagent igång i åtta timmar förbrukar lika mycket som sitt kylskåp på 24 timmar.
Det här är kanske det viktigaste faktumet i hela guiden: effektiviteten per förfrågan förbättras ständigt, men den totala förbrukningen slutar aldrig att växa.
Google visade en effektivitetsförbättring på 33 gånger under 12 månader (maj 2024 till maj 2025). Ändå ökade deras totala koldioxidutsläpp med 48–50 % under samma period. Deras faktiska elförbrukning ökade med 27 %, även om deras bokföring baserad på certifikat för förnybar energi (market-based) deklarerade en “minskning på 12 %”.
Det är Jevons paradox tillämpad på AI: när en resurs används mer effektivt sjunker kostnaden, den blir mer tillgänglig, användningsvolymen skjuter i höjden och den totala förbrukningen ökar.
Datan bekräftar det:
Effektivitet är nödvändigt men otillräckligt. Utan styrning av efterfrågan — att välja rätt modell, undvika onödig användning, mäta påverkan — accelererar den tekniska förbättringen bara problemet.
Allt ovan baseras på de mätningar som finns. Men det finns hela kategorier där vi inte har några data alls:
Hindret är inte tekniskt. NVIDIA DCGM, övervakningssystemet för GPU:er, är redan utplacerat i varje datacenter i världen. API:erna rapporterar redan kostnader i dollar per anrop. Att lägga till ett fält energy_wh vore trivialt.
Företagen väljer att inte göra det. Hindret är politiskt, inte tekniskt.
Om du är användare: Använd vår AI-fotavtrycksberäknare för att uppskatta din förbrukning. Som tumregel: text < bild < ljud < kod < reasoning < video. Den minsta modellen som löser din uppgift är alltid det bästa valet.
Om du är företag: AI-förbrukning är redan en del av ditt koldioxidavtryck under CSRD. Kräv förbrukningsdata per tjänst av dina leverantörer. Om Google kan publicera 0,24 Wh kan de andra också göra det.
Om du är utvecklare: Flash/mini som standard. Reasoning bara när problemet kräver det. Cacha resultat. Varje arkitekturbeslut har en energikostnad som multipliceras med miljontals användare.
Om du är lagstiftare: Mätning är möjlig idag, med teknik som redan finns i varje datacenter. Energimärkningar för hushållsapparater minskade förbrukningen med 60 % på 30 år. AI behöver sin egen märkning.
Relaterade
La brecha entre la inversión en IA y el valor real que genera — y qué pueden hacer las empresas para estar en el 5% que sí funciona
Manifiesto AISHA: por qué defendemos la inteligencia artificial y por qué exigimos que se use de forma responsable
Vår kalkylator hjälper dig att sätta frågor, bilder, resonemang och agenter i ett sammanhang.
Öppna kalkylator