Reasoning vs. schnelle Antwort: die Anfrage, die x130 mehr verbraucht

KI-Reasoning — die Fähigkeit, 'vor dem Antworten zu denken' — multipliziert den Energieverbrauch zwischen x 10 und x 500 je nach Modell und Aufgabe. Reasoning-Modelle verbrauchen im Durchschnitt x 30 mehr als Standardmodelle. Code-Agenten erreichen 41 Wh pro medianer Sitzung (x 137). Das Problem: viele Modelle aktivieren Reasoning standardmäßig, auch wenn es nicht nötig ist.

39,2 Wh. Das ist der Verbrauch einer langen Reasoning-Anfrage an das o3-Modell von OpenAI — Direktmessung, hohe Zuverlässigkeit. Das ist x131 mehr als eine einfache Textanfrage (0,3 Wh). So viel Energie wie das Aufladen deines Smartphones fast dreimal.

Und o3 ist nicht der Extremfall. Der AI Energy Score v2 von Hugging Face fand, dass Reasoning-Modelle im Durchschnitt x30 mehr verbrauchen als Standardmodelle. Einige erreichen x700.

Der Unterschied zwischen dem Stellen einer Frage an eine KI und dem Bitten, zu denken, ist nicht graduell. Er ist von Größenordnungen.

Was Reasoning ist und warum es so viel kostet

Seit 2024 integrieren die führenden KI-Modelle einen “Reasoning”- oder “Thinking”-Modus: Anstatt sofort zu antworten, generiert das Modell eine interne Gedankenkette — manchmal Tausende unsichtbare tokens — bevor es die endgültige Antwort produziert.

Dieser Prozess ist rechnerisch sehr teuer, weil:

Verborgene tokens generiert werden: Das Modell kann 10-100 Mal mehr interne tokens produzieren als es dem Nutzer anzeigt. Jeder token verbraucht Energie, auch wenn du ihn nie siehst.
Zusätzliche Schichten aktiviert werden: Reasoning-Modelle aktivieren in der Regel mehr Parameter, mehr Aufmerksamkeitsschichten und mehr interne Verifikationszyklen.
Es mit der Komplexität skaliert: Im Gegensatz zu einer schnellen Antwort (relativ feste Kosten) skaliert das Reasoning mit der Schwierigkeit des Problems. Eine komplexe Frage kann 10 Minuten internes “Denken” generieren.

Dauner und Socher dokumentierten, dass Reasoning-Modelle bis zu x50 mehr CO₂ ausstoßen als präzise Modelle, mit einem Fall von 37.575 tokens für eine einzige Antwort.

Die Daten: Modell für Modell

Der AI Energy Score v2 von Hugging Face (Dezember 2025), basierend auf Direktmessungen an H100-Hardware, liefert die solidesten Daten:

Modell	Ohne Reasoning	Mit Reasoning	Multiplikator
DeepSeek-R1-Distill-Llama-70B	0,050 Wh	7,63 Wh	x154
Phi-4-reasoning-plus	0,018 Wh	9,46 Wh	x514

Das sind echte Messungen, keine Schätzungen. Und sie bestätigen, dass Reasoning keine marginalen Kosten sind — es ist ein Skalenwechsel.

Die kalibrierten Schätzungen für geschlossene kommerzielle Modelle zeigen dasselbe Muster:

Modell	Ohne Reasoning	Mit Reasoning
GPT-5	0,4-1,0 Wh	8-45 Wh
GPT-5.4	0,5-1,2 Wh	4-18 Wh
Claude Sonnet 4.6	0,25-0,6 Wh	1,5-8 Wh
Claude Opus 4.6	0,6-1,5 Wh	5-20 Wh
Gemini 2.5 Pro	0,25-0,6 Wh	2-12 Wh
Gemini 2.5 Flash	0,12-0,25 Wh	0,6-2,5 Wh
DeepSeek-V3.2	0,08-0,18 Wh	1,5-8 Wh

Gemini 2.5 Flash-Lite ist die bemerkenswerte Ausnahme: Selbst mit aktivem thinking bleibt es bei 0,2-0,8 Wh — und beweist damit, dass effizientes Reasoning möglich ist.

Reasoning ist nicht kostenlos. Es ist ein Kostenmultiplikator, der je nach Modell von x10 bis x500 reicht. Jedes Mal, wenn du “thinking” aktivierst, wählst du — bewusst oder unbewusst — eine Größenordnung mehr Energieverbrauch.

Code-Agenten: Reasoning in Schleifen

Wenn punktuelles Reasoning bereits teuer ist, treiben Code-Agenten diese Kosten auf die Spitze: Sie wenden Reasoning iterativ an, in Schleifen, die Dutzende von Minuten dauern können, Dateien lesen, Befehle ausführen, Ergebnisse überprüfen und von vorne beginnen.

Simon P. Couch maß im Januar 2026 den tatsächlichen Verbrauch von Claude Code in Programmiersitzungen:

Mediane Sitzung: 592.439 tokens in 24 interaktiven Austauschen
Verbrauch pro Sitzung: 41 Wh — x137 der Basislinie
Intensivnutzung täglich (2-3 gleichzeitige Instanzen): ~1.300 Wh — das Äquivalent eines Geschirrspülerzyklus

Die anderen Agenten operieren in ähnlichen Bereichen:

Claude Code + Opus 4.6: 45-70 Wh pro Sitzung (x150-x233)
GPT-5.3-Codex: 12-40 Wh pro Aufgabe (x40-x133)
Devin 2.0: 10-60 Wh pro autonomer Aufgabe (x33-x200)
Cursor AI: 5-25 Wh pro intensiver Sitzung (x17-x83)
GitHub Copilot Agent: 3-15 Wh pro PR-Workflow (x10-x50)
Aider: 2-9 Wh pro Aufgabe (x7-x30)

Das Problem der verschwendeten tokens

Morph veröffentlichte im April 2026 eine aufschlussreiche Analyse: 70% der von Code-Agenten verbrauchten tokens sind Verschwendung:

35-45% beim Lesen von Dateien
15-25% bei Tool-Output
15-20% bei Kontext-Weiterleitung
10-15% bei internem Reasoning
Nur 5-15% generieren echten Code

Ein Fix eines einzelnen Zeichens verbrauchte mehr als 21.000 Eingabe-tokens. Claude Code verwendet x4,2 mehr tokens als Aider für identische Aufgaben (479.000 vs. ~105.000).

Deep Research: die Anfrage, die einen Analysten ersetzt

Deep Research-Systeme stellen das Extrem des Reasonings dar: Eine einzige Frage löst Dutzende von Web-Suchen, Seitenlektüren, Code-Ausführungen und iterative Synthesen aus. Das Ergebnis ist ein Forschungsbericht — und die Energiekosten spiegeln das wider.

System	Energie pro Bericht	Multiplikator
OpenAI DR (o3)	35-120 Wh	x117-x400
Gemini Deep Research	20-80 Wh	x67-x267
Claude Research	20-70 Wh	x67-x233
Perplexity Deep Research	15-60 Wh	x50-x200
OpenAI DR (o4-mini)	8-25 Wh	x27-x83
Grok DeepSearch	8-30 Wh	x27-x100

Simon Willison dokumentierte eine Deep Research-Sitzung mit o4-mini: 60.506 Eingabe-tokens, 22.883 Ausgabe-tokens (davon 89% interne Reasoning-tokens), 77 Tool-Aufrufe (45 Suchen + 24 Seitenbesuche + 12 Code-Ausführungen). Kosten: ~$1,10.

Ein Beispiel von Perplexity: 7 Eingabe-tokens vom Nutzer, 3.847 Ausgabe-tokens, aber 308.156 unsichtbare Reasoning-tokens. Das Reasoning machte zwischen 54% und 78% der Gesamtkosten aus.

Das Problem des “Standard-Thinkings”

Hier liegt das eigentliche Risiko: Mehrere Modelle aktivieren Reasoning standardmäßig, sogar für Fragen, die es nicht benötigen.

Claude Sonnet 4.6 hat den “adaptive thinking”-Modus standardmäßig aktiviert. Eine einfache Anfrage, die in 0,3 Wh gelöst werden könnte, wird mit unnötigem Reasoning verarbeitet und verbraucht 1,5-8 Wh.
GPT-5 verwendet einen Router, der schnelle Antworten und Reasoning nach eigenem Ermessen mischt — nicht dem des Nutzers.
Claude Opus 4.6 arbeitet standardmäßig im Thinking-Modus, auch wenn der Preis gesenkt wird: Preissenkung entspricht nicht einer Senkung des Energieverbrauchs.

Es ist wie ein Auto mit permanent aktiviertem Turbo — auch beim Brötchenholen.

Der Reasoning-Modus sollte opt-in sein, nicht opt-out. Ihn standardmäßig für alle Anfragen zu aktivieren ist systematische Energieverschwendung im Maßstab von Hunderten Millionen Nutzern.

Die definitive Multiplikatortabelle

Um alles in Perspektive zu setzen, hier ist die vollständige Skala von der leichtesten bis zur schwersten Anfrage:

Aktion	Energie	Multiplikator
Gemini 2.5 Flash-Lite (schnelle Anfrage)	0,05 Wh	x0,17
Einfache Textanfrage (Referenz)	0,3 Wh	x1
Claude Sonnet 4.6 (adaptive/high)	1,5-8 Wh	x5-x27
Gemini 2.5 Pro (thinking)	2-12 Wh	x7-x40
GPT-5 (Median, URI-Schätzung)	18,9 Wh	x63
DeepSeek-R1 (lang, Direktmessung)	33,6 Wh	x112
o3 (lang, Direktmessung)	39,2 Wh	x131
Claude Code (mediane Sitzung, gemessen)	41 Wh	x137
Deep Research o3 (vollständiger Bericht)	35-120 Wh	x117-x400
Sora 2 (10s-Clip, vor dem Shutdown)	90-936 Wh	x300-x3.120

Von der leichtesten bis zur schwersten Anfrage liegt ein Faktor von x18.000. Das sind keine Variationen — das sind völlig verschiedene Verbrauchswelten, verkleidet unter demselben Chat-Interface.

Was kann ich tun?

Als Nutzer: Deaktiviere den Reasoning-Modus, wenn du ihn nicht brauchst. Die meisten alltäglichen Anfragen — Texte schreiben, Suchen, Zusammenfassungen, Übersetzungen — lösen sich besser und schneller ohne thinking. Hebe das Reasoning für Probleme auf, die es wirklich erfordern: komplexe Analysen, schwieriger Code, tiefe Recherche.
Als Leiter eines technischen Teams: Etabliere eine Modell-Kaskaden-Politik: Flash-Lite/mini für Routineaufgaben, Standardmodell für allgemeine Aufgaben, Reasoning nur wenn ein klarer ROI vorliegt. Das kann den Verbrauch deines Teams um 80-90% reduzieren, ohne die Ergebnisqualität zu beeinträchtigen.
Als Entwickler: Deaktiviere thinking als Standard in deinen Integrationen. Verwende thinking: "off" oder Äquivalentes als Default und aktiviere es nur, wenn die Aufgabe es rechtfertigt. Implementiere Reasoning-token-Budgets. Und erwäge leichtere Agenten wie Aider (x4 weniger tokens als Claude Code für gleichwertige Aufgaben).
Als Regulierer: Standardmäßig aktiviertes Reasoning ist ein klarer Fall von unnötigem Energieverbrauch in massivem Maßstab. Eine Vorschrift, die Anbieter verpflichten würde, den effizienten Modus standardmäßig anzubieten — wie der ECO-Modus bei Haushaltsgeräten — hätte einen messbaren Einfluss auf den globalen KI-Verbrauch.

Reasoning vs. schnelle Antwort: die Anfrage, die x130 mehr verbraucht

Energiemultiplikator: Reasoning vs. schnelle Antwort (Basis = 0,3 Wh)

Was Reasoning ist und warum es so viel kostet

Die Daten: Modell für Modell

Code-Agenten: Reasoning in Schleifen

Das Problem der verschwendeten tokens

Deep Research: die Anfrage, die einen Analysten ersetzt

Das Problem des “Standard-Thinkings”

Die definitive Multiplikatortabelle

Was kann ich tun?

Quellen

AISHA weiter erkunden

Una imagen de IA consume lo mismo que cargar tu móvil 4 veces

Solo existen 10 mediciones reales del consumo de IA en el mundo

¿Cuánta energía consume la IA que usas cada día?

Nächster Schritt

Berechnen Sie den ungefähren Einfluss Ihrer KI-Nutzung.