Visuelle Skala zum Vergleich des Energieverbrauchs verschiedener KI-Typen: Text, Bild, Audio, Code und Video

Wie viel Energie verbraucht die KI, die du täglich nutzt?

Der ultimative Leitfaden zum Energieverbrauch nach Modell und Modalität in 2026

Von AISHA · 12. Februar 2026 · 8 Min. Lesezeit

10 Sekunden Video mit Veo 3.1 zu generieren kann so viel Energie verbrauchen wie eine Mikrowelle, die 1-2 Stunden lang läuft.

Textanfragen liegen bei ~0,3 Wh. Reasoning bewegt sich typischerweise zwischen x 5 und x 130. Bilder zwischen x 0,3 und x 14. Aktuelles kommerzielles Video zwischen x 133 und x 1.400. Code-Agents zwischen x 20 und x 150. Die Effizienz verbessert sich jedes Jahr, aber der Gesamtverbrauch steigt, weil jede Verbesserung das Nutzungsvolumen in die Höhe treibt (Jevons-Paradoxon).

Energieverbrauch nach KI-Modalität

Logarithmische Skala. Die Breite verwendet einen konservativen Referenzwert; rechts wird die in offenen Quellen dokumentierte Spanne angezeigt (0,3 Wh = x1).

Text (flash)

x0,17-x0,8

Text (frontier)

x0,8-x4

Reasoning

x5-x130

Bild

x0,3-x14

Audio

x0,8-x7

Code-Agent

x20-x150

Video

x133-x1.400

Obwohl jede Anfrage weniger verbraucht, steigt der Gesamtverbrauch durch viel mehr Anfragen

Das ist das Jevons-Paradoxon: Wenn etwas billiger und effizienter wird, wird es viel mehr genutzt, und der Gesamtverbrauch kann steigen

Reihe 20242025202620272028
Effizienz pro Token (Wh) 0,450,30,260,220,18
Tägliche Anfragen (Milliarden) 0,71,53,569

0,24 Wh

Einzige direkte Messung (Google Gemini)

x 133-x1.400

Aktuelles kommerzielles Video vs. Text

x 46

Variation zwischen Bildmodellen

x 514

Extremer Spitzenwert im Reasoning-Benchmark (Phi-4)

10 Sekunden Video mit Veo 3.1 zu generieren kann so viel Energie verbrauchen wie eine Mikrowelle, die 1-2 Stunden lang läuft.

Dieser Satz ist keine rhetorische Übertreibung. Es ist ein gemessener Wert. Und er ist nur die Spitze des Eisbergs einer Realität, die KI-Unternehmen lieber nicht öffentlich quantifizieren.

Bei AISHA haben wir alle bis April 2026 verfügbaren Messungen zusammengetragen, abgeglichen und verifiziert — akademische Paper, Produktionsdaten, unabhängige Benchmarks — um den umfassendsten deutschsprachigen Leitfaden zum realen Energieverbrauch künstlicher Intelligenz zu erstellen.

Das ist, was wir wissen.


Alles beginnt mit einer Zahl: 0,3 Wh

Um mit vergleichbaren Zahlen zu sprechen, brauchen wir einen Ausgangspunkt. Die Referenzeinheit ist die Standard-Textanfrage: ungefähr 0,3 Wh (Wattstunden).

Wie viel ist das? Die Energie, die eine 10-Watt-LED-Lampe in weniger als zwei Minuten verbraucht. Scheint unbedeutend. Aber wenn man es mit den Milliarden täglicher Anfragen weltweit multipliziert, hört der aggregierte Einfluss auf, trivial zu sein.

Google ist der einzige Anbieter, der eine direkte Produktionsmessung veröffentlicht hat: 0,24 Wh als Median für Textanfragen an Gemini (August 2025, reale Infrastrukturmessung, keine Schätzung). Sam Altman behauptete, dass ChatGPT durchschnittlich 0,34 Wh verbraucht, jedoch ohne jegliche Methodik zu veröffentlichen. Anthropic hat absolut nichts veröffentlicht.

Mit dieser Referenz von 0,3 Wh als Basis (x1) können wir alles andere vergleichen.


Text: die günstigste Modalität (und die ungleichste)

Nicht alle Textmodelle verbrauchen gleich viel. Der Unterschied zwischen dem leichtesten und dem schwersten übersteigt das 40-Fache. Diese Tabelle zeigt es:

ModellVerbrauch pro AnfrageMultiplikator
Gemini 2.5 Flash-Lite0,10 – 0,15 Whx0,3 – x0,5
Llama 4 Scout0,15 – 0,30 Whx0,5 – x1
DeepSeek V40,15 – 0,35 Whx0,5 – x1,2
GPT-5-mini0,20 – 0,40 Whx0,7 – x1,3
Mistral Large0,25 – 0,50 Whx0,8 – x1,7
Claude Sonnet 4.60,40 – 0,90 Whx1,3 – x3
GPT-5.40,50 – 1,20 Whx1,7 – x4
Gemini 2.5 Ultra0,35 – 0,70 Whx1,2 – x2,3
Claude Opus 4.6~4 Wh (geschätzt)~x13

Die „Flash”- oder „Mini”-Modelle sind 3- bis 10-mal effizienter als die vollständigen Frontier-Modelle. Für die überwiegende Mehrheit alltäglicher Aufgaben — einen Text zusammenfassen, eine E-Mail verfassen, eine Faktenfrage beantworten — reicht das kleine Modell aus.

Die Wahl des Modells ist nicht neutral. Eine falsche Wahl kann deinen Verbrauch für dieselbe Aufgabe um das 26-Fache multiplizieren.


Reasoning: Wenn Denken bis zu 130-mal mehr kosten kann

Die Revolution der „Thinking Models” — Modelle, die intern nachdenken, bevor sie antworten — hat die Energiegleichung radikal verändert. Sie erzeugen Gedankenketten von Zehntausenden von Tokens, bevor sie eine Antwort geben, und dieser interne Prozess verbraucht Energie.

Die folgende Tabelle enthält die verfügbaren Messungen für die wichtigsten Reasoning-Modi:

ModusVerbrauchMultiplikator vs. Text-Basis
GPT-5.4 mit Reasoning4 – 18 Whx13 – x60
Claude mit Extended Thinking2 – 8 Whx7 – x27
o3 (lange Prompts)~39 Wh~x130
Deep Research (jeder Anbieter)10 – 40 Whx33 – x133

Im schlimmsten Fall verbraucht eine einzige Reasoning-Anfrage so viel wie 130 normale Textanfragen.

Der Hugging Face AI Energy Score v2 (Dezember 2025), der 205 Open-Source-Modelle auf H100-GPUs misst, fand noch extremere Ergebnisse:

  • Phi-4-reasoning-plus: Multiplikator von x514 bei aktiviertem Reasoning (von 0,018 Wh auf 9,46 Wh)
  • DeepSeek-R1-Distill-Llama-70B: Multiplikator von x154 (von 0,050 Wh auf 7,63 Wh)
  • SmolLM3-3B: 13 Wh für eine einzelne Frage mit aktiviertem Reasoning

Den Reasoning-Modus zu aktivieren, wenn er nicht nötig ist, ist wie einen 40-Tonnen-LKW zu nehmen, um Brötchen zu holen.


Bilder: Jedes KI-Foto entspricht dem Aufladen deines Smartphones

Die Untersuchung von Bertazzini et al. (Juni 2025) maß 17 Diffusionsmodelle auf einer RTX 4090 und fand eine Variation von 46-mal zwischen dem effizientesten und dem am wenigsten effizienten.

Das sind die Extreme des Spektrums:

ModellVerbrauch pro BildÄquivalent
LCM_SSD_1B (effizientestes)0,086 Wh~0,3 Textanfragen
Ideogram 30,8 – 2,5 Wh3 – 8 Anfragen
Midjourney v71 – 4 Wh3 – 13 Anfragen
DALL-E 42 – 6 Wh7 – 20 Anfragen
Native Bilderzeugung GPT-4o~3 Wh~10 Anfragen
Lumina (am wenigsten effizient)4,08 Wh~14 Anfragen

Der Unterschied zwischen dem günstigsten und dem teuersten Modell ist der Unterschied zwischen dem Einschalten einer Taschenlampe und dem Einschalten eines Backofens.

Ein kontraintuitives Ergebnis: Die int8-Quantisierung, die den Verbrauch eigentlich senken soll, erhöht ihn tatsächlich um bis zu 64,5% bei einigen Bildmodellen. Effizienz ist nicht immer das, was sie scheint.

700 Millionen Bilder in einer Woche. Das ist es, was die Nutzer generierten, als OpenAI die native Bilderzeugung in GPT-4o einführte. Das entspricht ungefähr 2.100 MWh allein für die Bilderzeugung, in sieben Tagen.


Video: der große Energiefresser

Wenn Text das Fahrrad ist, dann ist Video das Flugzeug. Die Untersuchung von Delavande und Luccioni (September 2025) maß 7 Open-Source-Videomodelle auf H100 und dokumentierte eine Spanne von 800-mal zwischen dem günstigsten und dem teuersten.

Diese Zahlen sprechen für sich:

ModellDauerVerbrauchMultiplikator vs. Text
AnimateDiff (effizientestes)2 Sek.0,14 Whx0,5
Runway Gen-35 Sek.3 – 8 Whx10 – x27
WAN2.1-14B5 Sek.~109 Wh~x363
Kling 3.015 Sek.~400 Wh~x1.333
Sora 210 Sek.~1.000 Wh~x3.333

944 Wh pro 5-Sekunden-Clip. So viel verbrauchte Sora — so viel Energie wie das Aufladen eines Smartphones über einen ganzen Monat. OpenAI stellte es am 24. März 2026 ein, nachdem Gesamteinnahmen von 2,1 Millionen Dollar geschätzten Betriebskosten von 15 Millionen Dollar pro Tag gegenüberstanden.

Ein technisches Detail, das das Problem verschärft: Eine Verdoppelung der Videodauer vervierfacht den Energieverbrauch. Die Beziehung ist nicht linear — sie ist exponentiell.


Audio: die Modalität, die niemand misst

Passoni et al. (Mai 2025) veröffentlichten das einzige Paper mit Messungen zur Audiogenerierung (Text-to-Audio), mit 7 Modellen auf NVIDIA A40-GPUs:

  • AudioLDM (effizientestes): ~0,25 Wh pro 10-Sekunden-Clip
  • Tango2 (am wenigsten effizient): ~2,0 Wh pro 10-Sekunden-Clip

Das besorgniserregende Ergebnis: Neuere Modelle verbrauchen durchgehend mehr Energie als ältere. Die Branche priorisiert Qualität über Effizienz, ohne Ausnahmen.

Ein einziges Paper. Sieben Modelle. Null Daten von kommerziellen Diensten. Das ist die gesamte Transparenz, die es heute bei generativem Audio gibt.


Code-Agents: 136 Anfragen in einer einzigen Sitzung

Code-Agents stellen ein neues Paradigma des Verbrauchs dar. Simon P. Couch analysierte Claude Code-Sitzungen (Januar 2026) und stellte fest, dass eine mediane Sitzung 592.000 Tokens verarbeitet und ungefähr 41 Wh verbraucht — das Äquivalent von 136 herkömmlichen Textanfragen.

Komplexe Sitzungen können 50 bis 200 Wh erreichen. Ein Entwickler, der Code-Agents einen ganzen Arbeitstag lang nutzt, kann so viel Energie verbrauchen wie ein durchschnittlicher europäischer Haushalt an einem Tag.

Ein Entwickler mit einem acht Stunden lang laufenden Code-Agent verbraucht so viel wie sein Kühlschrank in 24 Stunden.


Das Paradoxon, das alles erklärt

Dies ist vielleicht die wichtigste Erkenntnis des gesamten Leitfadens: Die Effizienz pro Anfrage verbessert sich stetig, aber der Gesamtverbrauch hört nicht auf zu wachsen.

Google demonstrierte eine Effizienzverbesserung um das 33-Fache in 12 Monaten (Mai 2024 bis Mai 2025). Und dennoch stiegen ihre gesamten CO2-Emissionen im selben Zeitraum um 48-50%. Ihr tatsächlicher Stromverbrauch wuchs um 27%, obwohl ihre auf Ökostromzertifikaten basierende Bilanzierung (market-based) eine „Reduktion um 12%” auswies.

Es ist das Jevons-Paradoxon angewandt auf KI: Wenn eine Ressource effizienter genutzt wird, sinken die Kosten, sie wird zugänglicher, das Nutzungsvolumen explodiert und der Gesamtverbrauch steigt.

Die Daten bestätigen es:

  • Effizienz pro Token: verbessert sich um 15-30% jährlich
  • Volumen täglicher Anfragen: wächst von 0,4-1,0 Milliarden (2024) auf 2,5-5,0 Milliarden (2026)
  • Nettoergebnis: der Gesamtverbrauch steigt um 25% jährlich

Effizienz ist notwendig, aber nicht ausreichend. Ohne Nachfrage-Governance — das richtige Modell wählen, unnötige Nutzung vermeiden, die Auswirkungen messen — beschleunigt der technologische Fortschritt nur das Problem.


Die schwarzen Löcher: Was wir NICHT wissen

Alles Obige basiert auf den existierenden Messungen. Aber es gibt ganze Kategorien, für die wir keinerlei Daten haben:

  • Deep Research jedes Anbieters (die Schätzungen variieren zwischen 10 und 40 Wh — eine Spanne von x4)
  • Kommerzielle Bilderzeugung (DALL-E, Midjourney, Ideogram sind von akademischen Benchmarks ausgeschlossen)
  • Sora und proprietäre Videomodelle (die Schätzungen variierten um x27: von 35 bis 936 Wh)
  • Musikgenerierung (Suno, Udio: buchstäblich null veröffentlichte Daten)
  • Proprietäre Inferenz (GPT-5, Claude in Produktion, Grok: keine unabhängigen Messungen)

Die Barriere ist nicht technischer Natur. NVIDIA DCGM, das GPU-Monitoring-System, ist bereits in jedem Rechenzentrum der Welt im Einsatz. Die APIs melden bereits Kosten in Dollar pro Aufruf. Ein Feld energy_wh hinzuzufügen wäre trivial.

Die Unternehmen entscheiden sich dagegen. Die Barriere ist politisch, nicht technisch.


Was kann ich tun?

  • Als Nutzer: Verwende unseren KI-Fußabdruck-Rechner, um deinen Verbrauch zu schätzen. Als Faustregel: Text < Bild < Audio < Code < Reasoning < Video. Das kleinste Modell, das deine Aufgabe löst, ist immer die beste Wahl.

  • Als Unternehmen: Der KI-Verbrauch ist bereits Teil deines CO2-Fußabdrucks unter CSRD. Fordere von deinen Anbietern Verbrauchsdaten pro Service. Wenn Google 0,24 Wh veröffentlichen kann, können die anderen es auch.

  • Als Entwickler: Flash/Mini als Standard. Reasoning nur, wenn das Problem es erfordert. Ergebnisse cachen. Jede Architekturentscheidung hat Energiekosten, die sich mit Millionen von Nutzern multiplizieren.

  • Als Regulierer: Die Messung ist heute möglich, mit Technologie, die bereits in jedem Rechenzentrum existiert. Die Energielabels für Haushaltsgeräte haben den Verbrauch in 30 Jahren um 60% gesenkt. KI braucht ihr eigenes Label.

Quellen

Verwandte

AISHA weiter erkunden

Nächster Schritt

Berechnen Sie den ungefähren Einfluss Ihrer KI-Nutzung.

Unser Rechner hilft Ihnen, Abfragen, Bilder, Reasoning und Agenten in den Kontext zu setzen.

Rechner öffnen