Gemini 2.5 Flash-Lite (schnelle Anfrage)
0,17 x
Verbrauch
Wie viel Energie es kostet, dass KI wirklich 'denkt' — und warum der standardmäßig aktivierte Reasoning-Modus ein Problem ist
Eine lange Reasoning-Anfrage an OpenAIs o3-Modell verbraucht 39,2 Wh — Direktmessung. Das ist x 131 mehr als eine einfache Textanfrage (0,3 Wh). Und es gibt Modelle, bei denen der Multiplikator x 514 erreicht.
KI-Reasoning — die Fähigkeit, 'vor dem Antworten zu denken' — multipliziert den Energieverbrauch zwischen x 10 und x 500 je nach Modell und Aufgabe. Reasoning-Modelle verbrauchen im Durchschnitt x 30 mehr als Standardmodelle. Code-Agenten erreichen 41 Wh pro medianer Sitzung (x 137). Das Problem: viele Modelle aktivieren Reasoning standardmäßig, auch wenn es nicht nötig ist.
x 131
o3 langer Reasoning-Multiplikator (gemessen)
x 30
Durchschnitt Reasoning-Modelle vs. Standard (HF)
41 Wh
Mediane Claude Code-Sitzung (gemessen)
70 %
Verschwendete Tokens in Code-Agenten
39,2 Wh. Das ist der Verbrauch einer langen Reasoning-Anfrage an das o3-Modell von OpenAI — Direktmessung, hohe Zuverlässigkeit. Das ist x131 mehr als eine einfache Textanfrage (0,3 Wh). So viel Energie wie das Aufladen deines Smartphones fast dreimal.
Und o3 ist nicht der Extremfall. Der AI Energy Score v2 von Hugging Face fand, dass Reasoning-Modelle im Durchschnitt x30 mehr verbrauchen als Standardmodelle. Einige erreichen x700.
Der Unterschied zwischen dem Stellen einer Frage an eine KI und dem Bitten, zu denken, ist nicht graduell. Er ist von Größenordnungen.
Seit 2024 integrieren die führenden KI-Modelle einen “Reasoning”- oder “Thinking”-Modus: Anstatt sofort zu antworten, generiert das Modell eine interne Gedankenkette — manchmal Tausende unsichtbare tokens — bevor es die endgültige Antwort produziert.
Dieser Prozess ist rechnerisch sehr teuer, weil:
Dauner und Socher dokumentierten, dass Reasoning-Modelle bis zu x50 mehr CO₂ ausstoßen als präzise Modelle, mit einem Fall von 37.575 tokens für eine einzige Antwort.
Der AI Energy Score v2 von Hugging Face (Dezember 2025), basierend auf Direktmessungen an H100-Hardware, liefert die solidesten Daten:
| Modell | Ohne Reasoning | Mit Reasoning | Multiplikator |
|---|---|---|---|
| DeepSeek-R1-Distill-Llama-70B | 0,050 Wh | 7,63 Wh | x154 |
| Phi-4-reasoning-plus | 0,018 Wh | 9,46 Wh | x514 |
Das sind echte Messungen, keine Schätzungen. Und sie bestätigen, dass Reasoning keine marginalen Kosten sind — es ist ein Skalenwechsel.
Die kalibrierten Schätzungen für geschlossene kommerzielle Modelle zeigen dasselbe Muster:
| Modell | Ohne Reasoning | Mit Reasoning |
|---|---|---|
| GPT-5 | 0,4-1,0 Wh | 8-45 Wh |
| GPT-5.4 | 0,5-1,2 Wh | 4-18 Wh |
| Claude Sonnet 4.6 | 0,25-0,6 Wh | 1,5-8 Wh |
| Claude Opus 4.6 | 0,6-1,5 Wh | 5-20 Wh |
| Gemini 2.5 Pro | 0,25-0,6 Wh | 2-12 Wh |
| Gemini 2.5 Flash | 0,12-0,25 Wh | 0,6-2,5 Wh |
| DeepSeek-V3.2 | 0,08-0,18 Wh | 1,5-8 Wh |
Gemini 2.5 Flash-Lite ist die bemerkenswerte Ausnahme: Selbst mit aktivem thinking bleibt es bei 0,2-0,8 Wh — und beweist damit, dass effizientes Reasoning möglich ist.
Reasoning ist nicht kostenlos. Es ist ein Kostenmultiplikator, der je nach Modell von x10 bis x500 reicht. Jedes Mal, wenn du “thinking” aktivierst, wählst du — bewusst oder unbewusst — eine Größenordnung mehr Energieverbrauch.
Wenn punktuelles Reasoning bereits teuer ist, treiben Code-Agenten diese Kosten auf die Spitze: Sie wenden Reasoning iterativ an, in Schleifen, die Dutzende von Minuten dauern können, Dateien lesen, Befehle ausführen, Ergebnisse überprüfen und von vorne beginnen.
Simon P. Couch maß im Januar 2026 den tatsächlichen Verbrauch von Claude Code in Programmiersitzungen:
Die anderen Agenten operieren in ähnlichen Bereichen:
Morph veröffentlichte im April 2026 eine aufschlussreiche Analyse: 70% der von Code-Agenten verbrauchten tokens sind Verschwendung:
Ein Fix eines einzelnen Zeichens verbrauchte mehr als 21.000 Eingabe-tokens. Claude Code verwendet x4,2 mehr tokens als Aider für identische Aufgaben (479.000 vs. ~105.000).
Deep Research-Systeme stellen das Extrem des Reasonings dar: Eine einzige Frage löst Dutzende von Web-Suchen, Seitenlektüren, Code-Ausführungen und iterative Synthesen aus. Das Ergebnis ist ein Forschungsbericht — und die Energiekosten spiegeln das wider.
| System | Energie pro Bericht | Multiplikator |
|---|---|---|
| OpenAI DR (o3) | 35-120 Wh | x117-x400 |
| Gemini Deep Research | 20-80 Wh | x67-x267 |
| Claude Research | 20-70 Wh | x67-x233 |
| Perplexity Deep Research | 15-60 Wh | x50-x200 |
| OpenAI DR (o4-mini) | 8-25 Wh | x27-x83 |
| Grok DeepSearch | 8-30 Wh | x27-x100 |
Simon Willison dokumentierte eine Deep Research-Sitzung mit o4-mini: 60.506 Eingabe-tokens, 22.883 Ausgabe-tokens (davon 89% interne Reasoning-tokens), 77 Tool-Aufrufe (45 Suchen + 24 Seitenbesuche + 12 Code-Ausführungen). Kosten: ~$1,10.
Ein Beispiel von Perplexity: 7 Eingabe-tokens vom Nutzer, 3.847 Ausgabe-tokens, aber 308.156 unsichtbare Reasoning-tokens. Das Reasoning machte zwischen 54% und 78% der Gesamtkosten aus.
Hier liegt das eigentliche Risiko: Mehrere Modelle aktivieren Reasoning standardmäßig, sogar für Fragen, die es nicht benötigen.
Es ist wie ein Auto mit permanent aktiviertem Turbo — auch beim Brötchenholen.
Der Reasoning-Modus sollte opt-in sein, nicht opt-out. Ihn standardmäßig für alle Anfragen zu aktivieren ist systematische Energieverschwendung im Maßstab von Hunderten Millionen Nutzern.
Um alles in Perspektive zu setzen, hier ist die vollständige Skala von der leichtesten bis zur schwersten Anfrage:
| Aktion | Energie | Multiplikator |
|---|---|---|
| Gemini 2.5 Flash-Lite (schnelle Anfrage) | 0,05 Wh | x0,17 |
| Einfache Textanfrage (Referenz) | 0,3 Wh | x1 |
| Claude Sonnet 4.6 (adaptive/high) | 1,5-8 Wh | x5-x27 |
| Gemini 2.5 Pro (thinking) | 2-12 Wh | x7-x40 |
| GPT-5 (Median, URI-Schätzung) | 18,9 Wh | x63 |
| DeepSeek-R1 (lang, Direktmessung) | 33,6 Wh | x112 |
| o3 (lang, Direktmessung) | 39,2 Wh | x131 |
| Claude Code (mediane Sitzung, gemessen) | 41 Wh | x137 |
| Deep Research o3 (vollständiger Bericht) | 35-120 Wh | x117-x400 |
| Sora 2 (10s-Clip, vor dem Shutdown) | 90-936 Wh | x300-x3.120 |
Von der leichtesten bis zur schwersten Anfrage liegt ein Faktor von x18.000. Das sind keine Variationen — das sind völlig verschiedene Verbrauchswelten, verkleidet unter demselben Chat-Interface.
Als Nutzer: Deaktiviere den Reasoning-Modus, wenn du ihn nicht brauchst. Die meisten alltäglichen Anfragen — Texte schreiben, Suchen, Zusammenfassungen, Übersetzungen — lösen sich besser und schneller ohne thinking. Hebe das Reasoning für Probleme auf, die es wirklich erfordern: komplexe Analysen, schwieriger Code, tiefe Recherche.
Als Leiter eines technischen Teams: Etabliere eine Modell-Kaskaden-Politik: Flash-Lite/mini für Routineaufgaben, Standardmodell für allgemeine Aufgaben, Reasoning nur wenn ein klarer ROI vorliegt. Das kann den Verbrauch deines Teams um 80-90% reduzieren, ohne die Ergebnisqualität zu beeinträchtigen.
Als Entwickler: Deaktiviere thinking als Standard in deinen Integrationen. Verwende thinking: "off" oder Äquivalentes als Default und aktiviere es nur, wenn die Aufgabe es rechtfertigt. Implementiere Reasoning-token-Budgets. Und erwäge leichtere Agenten wie Aider (x4 weniger tokens als Claude Code für gleichwertige Aufgaben).
Als Regulierer: Standardmäßig aktiviertes Reasoning ist ein klarer Fall von unnötigem Energieverbrauch in massivem Maßstab. Eine Vorschrift, die Anbieter verpflichten würde, den effizienten Modus standardmäßig anzubieten — wie der ECO-Modus bei Haushaltsgeräten — hätte einen messbaren Einfluss auf den globalen KI-Verbrauch.
Verwandte
Por qué generar imágenes con IA cuesta entre 3 y 33 veces más energía que una consulta de texto — y qué puedes hacer al respecto
Inventario forense de todo lo que sabemos — y lo que no — sobre la energía que consume la inteligencia artificial
La guía definitiva del consumo energético por modelo y modalidad en 2026
Unser Rechner hilft Ihnen, Abfragen, Bilder, Reasoning und Agenten in den Kontext zu setzen.
Rechner öffnen