Text (flash)
x0,17-x0,8
Verbrauch
Der ultimative Leitfaden zum Energieverbrauch nach Modell und Modalität in 2026
10 Sekunden Video mit Veo 3.1 zu generieren kann so viel Energie verbrauchen wie eine Mikrowelle, die 1-2 Stunden lang läuft.
Textanfragen liegen bei ~0,3 Wh. Reasoning bewegt sich typischerweise zwischen x 5 und x 130. Bilder zwischen x 0,3 und x 14. Aktuelles kommerzielles Video zwischen x 133 und x 1.400. Code-Agents zwischen x 20 und x 150. Die Effizienz verbessert sich jedes Jahr, aber der Gesamtverbrauch steigt, weil jede Verbesserung das Nutzungsvolumen in die Höhe treibt (Jevons-Paradoxon).
Logarithmische Skala. Die Breite verwendet einen konservativen Referenzwert; rechts wird die in offenen Quellen dokumentierte Spanne angezeigt (0,3 Wh = x1).
Das ist das Jevons-Paradoxon: Wenn etwas billiger und effizienter wird, wird es viel mehr genutzt, und der Gesamtverbrauch kann steigen
| Reihe | 2024 | 2025 | 2026 | 2027 | 2028 |
|---|---|---|---|---|---|
| Effizienz pro Token (Wh) | 0,45 | 0,3 | 0,26 | 0,22 | 0,18 |
| Tägliche Anfragen (Milliarden) | 0,7 | 1,5 | 3,5 | 6 | 9 |
0,24 Wh
Einzige direkte Messung (Google Gemini)
x 133-x1.400
Aktuelles kommerzielles Video vs. Text
x 46
Variation zwischen Bildmodellen
x 514
Extremer Spitzenwert im Reasoning-Benchmark (Phi-4)
10 Sekunden Video mit Veo 3.1 zu generieren kann so viel Energie verbrauchen wie eine Mikrowelle, die 1-2 Stunden lang läuft.
Dieser Satz ist keine rhetorische Übertreibung. Es ist ein gemessener Wert. Und er ist nur die Spitze des Eisbergs einer Realität, die KI-Unternehmen lieber nicht öffentlich quantifizieren.
Bei AISHA haben wir alle bis April 2026 verfügbaren Messungen zusammengetragen, abgeglichen und verifiziert — akademische Paper, Produktionsdaten, unabhängige Benchmarks — um den umfassendsten deutschsprachigen Leitfaden zum realen Energieverbrauch künstlicher Intelligenz zu erstellen.
Das ist, was wir wissen.
Um mit vergleichbaren Zahlen zu sprechen, brauchen wir einen Ausgangspunkt. Die Referenzeinheit ist die Standard-Textanfrage: ungefähr 0,3 Wh (Wattstunden).
Wie viel ist das? Die Energie, die eine 10-Watt-LED-Lampe in weniger als zwei Minuten verbraucht. Scheint unbedeutend. Aber wenn man es mit den Milliarden täglicher Anfragen weltweit multipliziert, hört der aggregierte Einfluss auf, trivial zu sein.
Google ist der einzige Anbieter, der eine direkte Produktionsmessung veröffentlicht hat: 0,24 Wh als Median für Textanfragen an Gemini (August 2025, reale Infrastrukturmessung, keine Schätzung). Sam Altman behauptete, dass ChatGPT durchschnittlich 0,34 Wh verbraucht, jedoch ohne jegliche Methodik zu veröffentlichen. Anthropic hat absolut nichts veröffentlicht.
Mit dieser Referenz von 0,3 Wh als Basis (x1) können wir alles andere vergleichen.
Nicht alle Textmodelle verbrauchen gleich viel. Der Unterschied zwischen dem leichtesten und dem schwersten übersteigt das 40-Fache. Diese Tabelle zeigt es:
| Modell | Verbrauch pro Anfrage | Multiplikator |
|---|---|---|
| Gemini 2.5 Flash-Lite | 0,10 – 0,15 Wh | x0,3 – x0,5 |
| Llama 4 Scout | 0,15 – 0,30 Wh | x0,5 – x1 |
| DeepSeek V4 | 0,15 – 0,35 Wh | x0,5 – x1,2 |
| GPT-5-mini | 0,20 – 0,40 Wh | x0,7 – x1,3 |
| Mistral Large | 0,25 – 0,50 Wh | x0,8 – x1,7 |
| Claude Sonnet 4.6 | 0,40 – 0,90 Wh | x1,3 – x3 |
| GPT-5.4 | 0,50 – 1,20 Wh | x1,7 – x4 |
| Gemini 2.5 Ultra | 0,35 – 0,70 Wh | x1,2 – x2,3 |
| Claude Opus 4.6 | ~4 Wh (geschätzt) | ~x13 |
Die „Flash”- oder „Mini”-Modelle sind 3- bis 10-mal effizienter als die vollständigen Frontier-Modelle. Für die überwiegende Mehrheit alltäglicher Aufgaben — einen Text zusammenfassen, eine E-Mail verfassen, eine Faktenfrage beantworten — reicht das kleine Modell aus.
Die Wahl des Modells ist nicht neutral. Eine falsche Wahl kann deinen Verbrauch für dieselbe Aufgabe um das 26-Fache multiplizieren.
Die Revolution der „Thinking Models” — Modelle, die intern nachdenken, bevor sie antworten — hat die Energiegleichung radikal verändert. Sie erzeugen Gedankenketten von Zehntausenden von Tokens, bevor sie eine Antwort geben, und dieser interne Prozess verbraucht Energie.
Die folgende Tabelle enthält die verfügbaren Messungen für die wichtigsten Reasoning-Modi:
| Modus | Verbrauch | Multiplikator vs. Text-Basis |
|---|---|---|
| GPT-5.4 mit Reasoning | 4 – 18 Wh | x13 – x60 |
| Claude mit Extended Thinking | 2 – 8 Wh | x7 – x27 |
| o3 (lange Prompts) | ~39 Wh | ~x130 |
| Deep Research (jeder Anbieter) | 10 – 40 Wh | x33 – x133 |
Im schlimmsten Fall verbraucht eine einzige Reasoning-Anfrage so viel wie 130 normale Textanfragen.
Der Hugging Face AI Energy Score v2 (Dezember 2025), der 205 Open-Source-Modelle auf H100-GPUs misst, fand noch extremere Ergebnisse:
Den Reasoning-Modus zu aktivieren, wenn er nicht nötig ist, ist wie einen 40-Tonnen-LKW zu nehmen, um Brötchen zu holen.
Die Untersuchung von Bertazzini et al. (Juni 2025) maß 17 Diffusionsmodelle auf einer RTX 4090 und fand eine Variation von 46-mal zwischen dem effizientesten und dem am wenigsten effizienten.
Das sind die Extreme des Spektrums:
| Modell | Verbrauch pro Bild | Äquivalent |
|---|---|---|
| LCM_SSD_1B (effizientestes) | 0,086 Wh | ~0,3 Textanfragen |
| Ideogram 3 | 0,8 – 2,5 Wh | 3 – 8 Anfragen |
| Midjourney v7 | 1 – 4 Wh | 3 – 13 Anfragen |
| DALL-E 4 | 2 – 6 Wh | 7 – 20 Anfragen |
| Native Bilderzeugung GPT-4o | ~3 Wh | ~10 Anfragen |
| Lumina (am wenigsten effizient) | 4,08 Wh | ~14 Anfragen |
Der Unterschied zwischen dem günstigsten und dem teuersten Modell ist der Unterschied zwischen dem Einschalten einer Taschenlampe und dem Einschalten eines Backofens.
Ein kontraintuitives Ergebnis: Die int8-Quantisierung, die den Verbrauch eigentlich senken soll, erhöht ihn tatsächlich um bis zu 64,5% bei einigen Bildmodellen. Effizienz ist nicht immer das, was sie scheint.
700 Millionen Bilder in einer Woche. Das ist es, was die Nutzer generierten, als OpenAI die native Bilderzeugung in GPT-4o einführte. Das entspricht ungefähr 2.100 MWh allein für die Bilderzeugung, in sieben Tagen.
Wenn Text das Fahrrad ist, dann ist Video das Flugzeug. Die Untersuchung von Delavande und Luccioni (September 2025) maß 7 Open-Source-Videomodelle auf H100 und dokumentierte eine Spanne von 800-mal zwischen dem günstigsten und dem teuersten.
Diese Zahlen sprechen für sich:
| Modell | Dauer | Verbrauch | Multiplikator vs. Text |
|---|---|---|---|
| AnimateDiff (effizientestes) | 2 Sek. | 0,14 Wh | x0,5 |
| Runway Gen-3 | 5 Sek. | 3 – 8 Wh | x10 – x27 |
| WAN2.1-14B | 5 Sek. | ~109 Wh | ~x363 |
| Kling 3.0 | 15 Sek. | ~400 Wh | ~x1.333 |
| Sora 2 | 10 Sek. | ~1.000 Wh | ~x3.333 |
944 Wh pro 5-Sekunden-Clip. So viel verbrauchte Sora — so viel Energie wie das Aufladen eines Smartphones über einen ganzen Monat. OpenAI stellte es am 24. März 2026 ein, nachdem Gesamteinnahmen von 2,1 Millionen Dollar geschätzten Betriebskosten von 15 Millionen Dollar pro Tag gegenüberstanden.
Ein technisches Detail, das das Problem verschärft: Eine Verdoppelung der Videodauer vervierfacht den Energieverbrauch. Die Beziehung ist nicht linear — sie ist exponentiell.
Passoni et al. (Mai 2025) veröffentlichten das einzige Paper mit Messungen zur Audiogenerierung (Text-to-Audio), mit 7 Modellen auf NVIDIA A40-GPUs:
Das besorgniserregende Ergebnis: Neuere Modelle verbrauchen durchgehend mehr Energie als ältere. Die Branche priorisiert Qualität über Effizienz, ohne Ausnahmen.
Ein einziges Paper. Sieben Modelle. Null Daten von kommerziellen Diensten. Das ist die gesamte Transparenz, die es heute bei generativem Audio gibt.
Code-Agents stellen ein neues Paradigma des Verbrauchs dar. Simon P. Couch analysierte Claude Code-Sitzungen (Januar 2026) und stellte fest, dass eine mediane Sitzung 592.000 Tokens verarbeitet und ungefähr 41 Wh verbraucht — das Äquivalent von 136 herkömmlichen Textanfragen.
Komplexe Sitzungen können 50 bis 200 Wh erreichen. Ein Entwickler, der Code-Agents einen ganzen Arbeitstag lang nutzt, kann so viel Energie verbrauchen wie ein durchschnittlicher europäischer Haushalt an einem Tag.
Ein Entwickler mit einem acht Stunden lang laufenden Code-Agent verbraucht so viel wie sein Kühlschrank in 24 Stunden.
Dies ist vielleicht die wichtigste Erkenntnis des gesamten Leitfadens: Die Effizienz pro Anfrage verbessert sich stetig, aber der Gesamtverbrauch hört nicht auf zu wachsen.
Google demonstrierte eine Effizienzverbesserung um das 33-Fache in 12 Monaten (Mai 2024 bis Mai 2025). Und dennoch stiegen ihre gesamten CO2-Emissionen im selben Zeitraum um 48-50%. Ihr tatsächlicher Stromverbrauch wuchs um 27%, obwohl ihre auf Ökostromzertifikaten basierende Bilanzierung (market-based) eine „Reduktion um 12%” auswies.
Es ist das Jevons-Paradoxon angewandt auf KI: Wenn eine Ressource effizienter genutzt wird, sinken die Kosten, sie wird zugänglicher, das Nutzungsvolumen explodiert und der Gesamtverbrauch steigt.
Die Daten bestätigen es:
Effizienz ist notwendig, aber nicht ausreichend. Ohne Nachfrage-Governance — das richtige Modell wählen, unnötige Nutzung vermeiden, die Auswirkungen messen — beschleunigt der technologische Fortschritt nur das Problem.
Alles Obige basiert auf den existierenden Messungen. Aber es gibt ganze Kategorien, für die wir keinerlei Daten haben:
Die Barriere ist nicht technischer Natur. NVIDIA DCGM, das GPU-Monitoring-System, ist bereits in jedem Rechenzentrum der Welt im Einsatz. Die APIs melden bereits Kosten in Dollar pro Aufruf. Ein Feld energy_wh hinzuzufügen wäre trivial.
Die Unternehmen entscheiden sich dagegen. Die Barriere ist politisch, nicht technisch.
Als Nutzer: Verwende unseren KI-Fußabdruck-Rechner, um deinen Verbrauch zu schätzen. Als Faustregel: Text < Bild < Audio < Code < Reasoning < Video. Das kleinste Modell, das deine Aufgabe löst, ist immer die beste Wahl.
Als Unternehmen: Der KI-Verbrauch ist bereits Teil deines CO2-Fußabdrucks unter CSRD. Fordere von deinen Anbietern Verbrauchsdaten pro Service. Wenn Google 0,24 Wh veröffentlichen kann, können die anderen es auch.
Als Entwickler: Flash/Mini als Standard. Reasoning nur, wenn das Problem es erfordert. Ergebnisse cachen. Jede Architekturentscheidung hat Energiekosten, die sich mit Millionen von Nutzern multiplizieren.
Als Regulierer: Die Messung ist heute möglich, mit Technologie, die bereits in jedem Rechenzentrum existiert. Die Energielabels für Haushaltsgeräte haben den Verbrauch in 30 Jahren um 60% gesenkt. KI braucht ihr eigenes Label.
Verwandte
La brecha entre la inversión en IA y el valor real que genera — y qué pueden hacer las empresas para estar en el 5% que sí funciona
Manifiesto AISHA: por qué defendemos la inteligencia artificial y por qué exigimos que se use de forma responsable
Unser Rechner hilft Ihnen, Abfragen, Bilder, Reasoning und Agenten in den Kontext zu setzen.
Rechner öffnen