Abstrakte Illustration zweier KI-Anfragen — eine schnell wie ein Blitz, die andere labyrinthisch und kostspielig, in Cyan- und Bernsteintönen auf dunklem Hintergrund

Reasoning vs. schnelle Antwort: die Anfrage, die x130 mehr verbraucht

Wie viel Energie es kostet, dass KI wirklich 'denkt' — und warum der standardmäßig aktivierte Reasoning-Modus ein Problem ist

Von AISHA · 4. April 2026 · 6 Min. Lesezeit

Eine lange Reasoning-Anfrage an OpenAIs o3-Modell verbraucht 39,2 Wh — Direktmessung. Das ist x 131 mehr als eine einfache Textanfrage (0,3 Wh). Und es gibt Modelle, bei denen der Multiplikator x 514 erreicht.

KI-Reasoning — die Fähigkeit, 'vor dem Antworten zu denken' — multipliziert den Energieverbrauch zwischen x 10 und x 500 je nach Modell und Aufgabe. Reasoning-Modelle verbrauchen im Durchschnitt x 30 mehr als Standardmodelle. Code-Agenten erreichen 41 Wh pro medianer Sitzung (x 137). Das Problem: viele Modelle aktivieren Reasoning standardmäßig, auch wenn es nicht nötig ist.

Energiemultiplikator: Reasoning vs. schnelle Antwort (Basis = 0,3 Wh)

Gemini 2.5 Flash-Lite (schnelle Anfrage)

0,17 x

Claude Sonnet 4.6 (kein thinking)

1,5 x

Claude Sonnet 4.6 (adaptive/high)

15 x

GPT-5 (Median, URI-Schätzung)

63 x

DeepSeek-R1 (lang, gemessen)

112 x

o3 (lang, gemessen)

131 x

Claude Code (mediane Sitzung)

137 x

Phi-4-reasoning-plus (Maximum gemessen)

514 x

x 131

o3 langer Reasoning-Multiplikator (gemessen)

x 30

Durchschnitt Reasoning-Modelle vs. Standard (HF)

41 Wh

Mediane Claude Code-Sitzung (gemessen)

70 %

Verschwendete Tokens in Code-Agenten

39,2 Wh. Das ist der Verbrauch einer langen Reasoning-Anfrage an das o3-Modell von OpenAI — Direktmessung, hohe Zuverlässigkeit. Das ist x131 mehr als eine einfache Textanfrage (0,3 Wh). So viel Energie wie das Aufladen deines Smartphones fast dreimal.

Und o3 ist nicht der Extremfall. Der AI Energy Score v2 von Hugging Face fand, dass Reasoning-Modelle im Durchschnitt x30 mehr verbrauchen als Standardmodelle. Einige erreichen x700.

Der Unterschied zwischen dem Stellen einer Frage an eine KI und dem Bitten, zu denken, ist nicht graduell. Er ist von Größenordnungen.


Was Reasoning ist und warum es so viel kostet

Seit 2024 integrieren die führenden KI-Modelle einen “Reasoning”- oder “Thinking”-Modus: Anstatt sofort zu antworten, generiert das Modell eine interne Gedankenkette — manchmal Tausende unsichtbare tokens — bevor es die endgültige Antwort produziert.

Dieser Prozess ist rechnerisch sehr teuer, weil:

  • Verborgene tokens generiert werden: Das Modell kann 10-100 Mal mehr interne tokens produzieren als es dem Nutzer anzeigt. Jeder token verbraucht Energie, auch wenn du ihn nie siehst.
  • Zusätzliche Schichten aktiviert werden: Reasoning-Modelle aktivieren in der Regel mehr Parameter, mehr Aufmerksamkeitsschichten und mehr interne Verifikationszyklen.
  • Es mit der Komplexität skaliert: Im Gegensatz zu einer schnellen Antwort (relativ feste Kosten) skaliert das Reasoning mit der Schwierigkeit des Problems. Eine komplexe Frage kann 10 Minuten internes “Denken” generieren.

Dauner und Socher dokumentierten, dass Reasoning-Modelle bis zu x50 mehr CO₂ ausstoßen als präzise Modelle, mit einem Fall von 37.575 tokens für eine einzige Antwort.


Die Daten: Modell für Modell

Der AI Energy Score v2 von Hugging Face (Dezember 2025), basierend auf Direktmessungen an H100-Hardware, liefert die solidesten Daten:

ModellOhne ReasoningMit ReasoningMultiplikator
DeepSeek-R1-Distill-Llama-70B0,050 Wh7,63 Whx154
Phi-4-reasoning-plus0,018 Wh9,46 Whx514

Das sind echte Messungen, keine Schätzungen. Und sie bestätigen, dass Reasoning keine marginalen Kosten sind — es ist ein Skalenwechsel.

Die kalibrierten Schätzungen für geschlossene kommerzielle Modelle zeigen dasselbe Muster:

ModellOhne ReasoningMit Reasoning
GPT-50,4-1,0 Wh8-45 Wh
GPT-5.40,5-1,2 Wh4-18 Wh
Claude Sonnet 4.60,25-0,6 Wh1,5-8 Wh
Claude Opus 4.60,6-1,5 Wh5-20 Wh
Gemini 2.5 Pro0,25-0,6 Wh2-12 Wh
Gemini 2.5 Flash0,12-0,25 Wh0,6-2,5 Wh
DeepSeek-V3.20,08-0,18 Wh1,5-8 Wh

Gemini 2.5 Flash-Lite ist die bemerkenswerte Ausnahme: Selbst mit aktivem thinking bleibt es bei 0,2-0,8 Wh — und beweist damit, dass effizientes Reasoning möglich ist.

Reasoning ist nicht kostenlos. Es ist ein Kostenmultiplikator, der je nach Modell von x10 bis x500 reicht. Jedes Mal, wenn du “thinking” aktivierst, wählst du — bewusst oder unbewusst — eine Größenordnung mehr Energieverbrauch.


Code-Agenten: Reasoning in Schleifen

Wenn punktuelles Reasoning bereits teuer ist, treiben Code-Agenten diese Kosten auf die Spitze: Sie wenden Reasoning iterativ an, in Schleifen, die Dutzende von Minuten dauern können, Dateien lesen, Befehle ausführen, Ergebnisse überprüfen und von vorne beginnen.

Simon P. Couch maß im Januar 2026 den tatsächlichen Verbrauch von Claude Code in Programmiersitzungen:

  • Mediane Sitzung: 592.439 tokens in 24 interaktiven Austauschen
  • Verbrauch pro Sitzung: 41 Whx137 der Basislinie
  • Intensivnutzung täglich (2-3 gleichzeitige Instanzen): ~1.300 Wh — das Äquivalent eines Geschirrspülerzyklus

Die anderen Agenten operieren in ähnlichen Bereichen:

  • Claude Code + Opus 4.6: 45-70 Wh pro Sitzung (x150-x233)
  • GPT-5.3-Codex: 12-40 Wh pro Aufgabe (x40-x133)
  • Devin 2.0: 10-60 Wh pro autonomer Aufgabe (x33-x200)
  • Cursor AI: 5-25 Wh pro intensiver Sitzung (x17-x83)
  • GitHub Copilot Agent: 3-15 Wh pro PR-Workflow (x10-x50)
  • Aider: 2-9 Wh pro Aufgabe (x7-x30)

Das Problem der verschwendeten tokens

Morph veröffentlichte im April 2026 eine aufschlussreiche Analyse: 70% der von Code-Agenten verbrauchten tokens sind Verschwendung:

  • 35-45% beim Lesen von Dateien
  • 15-25% bei Tool-Output
  • 15-20% bei Kontext-Weiterleitung
  • 10-15% bei internem Reasoning
  • Nur 5-15% generieren echten Code

Ein Fix eines einzelnen Zeichens verbrauchte mehr als 21.000 Eingabe-tokens. Claude Code verwendet x4,2 mehr tokens als Aider für identische Aufgaben (479.000 vs. ~105.000).


Deep Research: die Anfrage, die einen Analysten ersetzt

Deep Research-Systeme stellen das Extrem des Reasonings dar: Eine einzige Frage löst Dutzende von Web-Suchen, Seitenlektüren, Code-Ausführungen und iterative Synthesen aus. Das Ergebnis ist ein Forschungsbericht — und die Energiekosten spiegeln das wider.

SystemEnergie pro BerichtMultiplikator
OpenAI DR (o3)35-120 Whx117-x400
Gemini Deep Research20-80 Whx67-x267
Claude Research20-70 Whx67-x233
Perplexity Deep Research15-60 Whx50-x200
OpenAI DR (o4-mini)8-25 Whx27-x83
Grok DeepSearch8-30 Whx27-x100

Simon Willison dokumentierte eine Deep Research-Sitzung mit o4-mini: 60.506 Eingabe-tokens, 22.883 Ausgabe-tokens (davon 89% interne Reasoning-tokens), 77 Tool-Aufrufe (45 Suchen + 24 Seitenbesuche + 12 Code-Ausführungen). Kosten: ~$1,10.

Ein Beispiel von Perplexity: 7 Eingabe-tokens vom Nutzer, 3.847 Ausgabe-tokens, aber 308.156 unsichtbare Reasoning-tokens. Das Reasoning machte zwischen 54% und 78% der Gesamtkosten aus.


Das Problem des “Standard-Thinkings”

Hier liegt das eigentliche Risiko: Mehrere Modelle aktivieren Reasoning standardmäßig, sogar für Fragen, die es nicht benötigen.

  • Claude Sonnet 4.6 hat den “adaptive thinking”-Modus standardmäßig aktiviert. Eine einfache Anfrage, die in 0,3 Wh gelöst werden könnte, wird mit unnötigem Reasoning verarbeitet und verbraucht 1,5-8 Wh.
  • GPT-5 verwendet einen Router, der schnelle Antworten und Reasoning nach eigenem Ermessen mischt — nicht dem des Nutzers.
  • Claude Opus 4.6 arbeitet standardmäßig im Thinking-Modus, auch wenn der Preis gesenkt wird: Preissenkung entspricht nicht einer Senkung des Energieverbrauchs.

Es ist wie ein Auto mit permanent aktiviertem Turbo — auch beim Brötchenholen.

Der Reasoning-Modus sollte opt-in sein, nicht opt-out. Ihn standardmäßig für alle Anfragen zu aktivieren ist systematische Energieverschwendung im Maßstab von Hunderten Millionen Nutzern.


Die definitive Multiplikatortabelle

Um alles in Perspektive zu setzen, hier ist die vollständige Skala von der leichtesten bis zur schwersten Anfrage:

AktionEnergieMultiplikator
Gemini 2.5 Flash-Lite (schnelle Anfrage)0,05 Whx0,17
Einfache Textanfrage (Referenz)0,3 Whx1
Claude Sonnet 4.6 (adaptive/high)1,5-8 Whx5-x27
Gemini 2.5 Pro (thinking)2-12 Whx7-x40
GPT-5 (Median, URI-Schätzung)18,9 Whx63
DeepSeek-R1 (lang, Direktmessung)33,6 Whx112
o3 (lang, Direktmessung)39,2 Whx131
Claude Code (mediane Sitzung, gemessen)41 Whx137
Deep Research o3 (vollständiger Bericht)35-120 Whx117-x400
Sora 2 (10s-Clip, vor dem Shutdown)90-936 Whx300-x3.120

Von der leichtesten bis zur schwersten Anfrage liegt ein Faktor von x18.000. Das sind keine Variationen — das sind völlig verschiedene Verbrauchswelten, verkleidet unter demselben Chat-Interface.


Was kann ich tun?

  • Als Nutzer: Deaktiviere den Reasoning-Modus, wenn du ihn nicht brauchst. Die meisten alltäglichen Anfragen — Texte schreiben, Suchen, Zusammenfassungen, Übersetzungen — lösen sich besser und schneller ohne thinking. Hebe das Reasoning für Probleme auf, die es wirklich erfordern: komplexe Analysen, schwieriger Code, tiefe Recherche.

  • Als Leiter eines technischen Teams: Etabliere eine Modell-Kaskaden-Politik: Flash-Lite/mini für Routineaufgaben, Standardmodell für allgemeine Aufgaben, Reasoning nur wenn ein klarer ROI vorliegt. Das kann den Verbrauch deines Teams um 80-90% reduzieren, ohne die Ergebnisqualität zu beeinträchtigen.

  • Als Entwickler: Deaktiviere thinking als Standard in deinen Integrationen. Verwende thinking: "off" oder Äquivalentes als Default und aktiviere es nur, wenn die Aufgabe es rechtfertigt. Implementiere Reasoning-token-Budgets. Und erwäge leichtere Agenten wie Aider (x4 weniger tokens als Claude Code für gleichwertige Aufgaben).

  • Als Regulierer: Standardmäßig aktiviertes Reasoning ist ein klarer Fall von unnötigem Energieverbrauch in massivem Maßstab. Eine Vorschrift, die Anbieter verpflichten würde, den effizienten Modus standardmäßig anzubieten — wie der ECO-Modus bei Haushaltsgeräten — hätte einen messbaren Einfluss auf den globalen KI-Verbrauch.

Quellen

Verwandte

AISHA weiter erkunden

Nächster Schritt

Berechnen Sie den ungefähren Einfluss Ihrer KI-Nutzung.

Unser Rechner hilft Ihnen, Abfragen, Bilder, Reasoning und Agenten in den Kontext zu setzen.

Rechner öffnen