Transparenz / Opazität

Forensisches Inventar der Energie-Opazität

Übersicht darüber, welche Anbieter Daten veröffentlichen, welche nicht und mit welcher methodischen Qualität.

Die öffentliche Evidenz bleibt minimal und sehr ungleich verteilt

Bis April 2026 stützt sich nahezu die gesamte Debatte über den Energieverbrauch von AI auf eine Handvoll Labormessungen, eine einzige granulare Produktionszahl und mehrere Unternehmens- oder akademische Schätzungen mit hohen Fehlermargen. Das Hauptproblem ist nicht mangelndes Interesse, sondern das Fehlen offener und dienstbezogen vergleichbarer Telemetrie.

Wirklich nützliche Primärquellen

10

Zwischen Papers, offenen Benchmarks, Unternehmensangaben und überprüfbaren Schätzungen.

Öffentliche Spanne für eine Textanfrage

0,24-0,34 Wh

Google und OpenAI markieren den engen bekannten Referenzbereich für allgemeinen Chat.

Maximal beobachtete Abweichung

x 27

Opake Schätzketten können die Differenz zwischen abgeleitetem und realem Wert enorm vergrößern.

Dieses Inventar trennt Direktmessung, Produktionsdaten und indirekte Schätzung, um eine einfache Frage zu beantworten: Was wissen wir wirklich und was nehmen wir weiterhin nur an.

Das Ergebnis ist unbequem: Die meisten Zahlen, die in Presse, Regulierung und Marketing kursieren, sind keine verifizierbare Telemetrie. Es sind Annäherungen, die auf angenommenem Hardware, geschätzter Auslastung und proprietären Modellen basieren, die weiterhin verschlossen bleiben.

Verbrauch nach Modalität mit der heute verfügbaren Evidenz

Logarithmische Skala basierend auf der meistzitierten öffentlichen Spanne für Text, Bildgenerierung und Open-Source-Video.

Fazit: Das zentrale Problem ist nicht mehr, eine schöne Zahl zu berechnen, sondern zwischen realer Telemetrie und spekulativer Erzählung zu unterscheiden. Ohne diese Trennlinie bleibt jeder Vergleich zwischen Modellen fragil.

Die 10 Quellen, die die Debatte tatsächlich tragen

Dieser Abschnitt versammelt die Quellen, die wirklich etwas zur Energiedebatte beitragen: Direkte Labormessungen, ein granularer Produktionsfall und eine kleine Gruppe akademischer oder unternehmensseitiger Schätzungen, die trotz ihrer Grenzen helfen, Größenordnungen einzugrenzen.

Inventar der Primärevidenz

Filtern Sie nach Typ, um reale Produktion, offenes Labor und indirekte Schätzung zu unterscheiden.

		Berichteter Wert	Kernaussage
Google — Median von Gemini August 2025 · arXiv:2508.15734v1	Produktion	0,24 Wh / Anfrage	Einzige veröffentlichte granulare Produktionszahl mit TPU, Host-Overhead und PUE eingerechnet.
Sam Altman — ChatGPT Juni 2025 · Unternehmensblog	Schätzung	0,34 Wh / Anfrage	Dient als mediale Referenz, kommt aber ohne Methodik, Peer Review oder Aufschlüsselung nach Modalität.
Hugging Face AI Energy Score Dezember 2025 · Sasha Luccioni et al.	Direkt	1 bis 5 Sterne	Vergleicht über 200 offene Modelle und zeigt, dass Reasoning den Verbrauch um das Hundertfache steigern kann.
ML.Energy (University of Michigan) 2025-2026 · Jae-Won Chung et al.	Direkt	Offenes Leaderboard	Liefert nützlichen Kontext für Open-Source-Modelle, löst aber nicht die Blackbox der geschlossenen Anbieter.
The Hidden Cost of an Image Juni 2025 · arXiv:2506.17016	Direkt	Bis zu x46 zwischen Modellen	Bestätigt die enorme energetische Streuung bei Bildern und den geringen Nutzen markenbasierter Vergleiche ohne technischen Kontext.
Video Killed the Energy Budget September 2025 · arXiv:2509.19222	Direkt	Bis zu x2.000 vs. Text	Open-Source-Video markiert bereits einen klaren physikalischen Bruch: Die Modalität zählt mehr als das Marketing des Modells.
Generatives Audio Mai 2025 · arXiv:2505.07615	Direkt	Variiert je nach Modell	Nahezu die einzige nützliche empirische Referenz für Text-to-Audio und lässt die dominierenden kommerziellen Plattformen außen vor.
How Hungry is AI? 2025 · arXiv:2505.09598	Schätzung	o3: 39,2 Wh · Claude 3.7: 17 Wh	Gute Übersicht möglicher Szenarien, bleibt aber theoretische Inferenz basierend auf Preisen und Hardware-Annahmen.
Monte-Carlo-Bottom-Up-Simulation September 2025 · arXiv:2509.20241	Schätzung	Median 0,34 Wh	Eine der besten akademischen Annäherungen, hängt aber von zu vielen nicht beobachtbaren Eingangsannahmen ab.
Claude Code energy estimate Januar 2026 · Simon P. Couch	Schätzung	41 Wh / Median-Sitzung	Nützlich zur Dimensionierung von Agents, wobei der Autor selbst eine Fehlermarge von etwa x3 einräumt.

Die Tabelle fasst vergleichbare Erkenntnisse zusammen. Die ausführlichen Details und methodischen Einschränkungen befinden sich weiterhin in den Originalquellen.

Verifizierbare Produktion

Google ist die einzige große Plattform, die eine vergleichbare granulare Produktionszahl veröffentlicht hat.
Dieser Datenpunkt beweist bereits, dass eine Messung pro Anfrage technisch machbar ist.
Was weiterhin fehlt, ist das Sensitivste: Agents, kommerzielles Video und Aufschlüsselungen nach Premium-Dienst.

Offenes Labor

Akademie und Open Source ermöglichen Messungen von Text, Bild, Audio und Video unter kontrollierten Bedingungen.
Dieses Universum dient dem Verständnis von Größenordnungen, nicht als Ersatz für reale Produkttelemetrie.
Die dominierenden geschlossenen Modelle bleiben außerhalb des öffentlichen Vergleichs.

Indirekte Schätzung

Die meistzitierten Schätzungen mischen angenommene Hardware, ungewisse Auslastung und Finanzkosten als Proxy.
Sie können eine Diskussion orientieren, aber keine feinkörnige Regulierung oder einen fairen kommerziellen Vergleich tragen.
Je opaker der Anbieter, desto größer die Fehlermarge.

Welche Daten bei den großen Anbietern weiterhin fehlen

Die Opazität ist nicht homogen. Es gibt eine besonders gravierende Lücke bei Agents, kommerziellem Video, aggregierter Inferenz und verteilten Workloads innerhalb geschlossener Plattformen. Diese Tabelle dokumentiert, welche Schlüsselinformationen weiterhin unveröffentlicht sind und wo bereits explizite Ablehnung oder anhaltendes Schweigen besteht.

Inventar noch unbekannter Daten

Filtern Sie nach Anbieter, um zu sehen, welche Informationslücken weiterhin offen sind.

	Fehlender Datenpunkt	Status
OpenAI Text (GPT-5)	Realer Verbrauch pro Anfrage	Keine Daten
OpenAI Bild (DALL-E / GPT-4o)	Realer Verbrauch pro Bild	Keine Daten
OpenAI Video (Sora 2)	Verbrauch pro Clip in Produktion	Keine Daten
OpenAI Agent (Deep Research)	Realer Verbrauch pro Sitzung	Keine Daten
Anthropic Text (Claude)	Realer Verbrauch pro Anfrage in Produktion	Keine Daten
Anthropic Agents (Claude Code / Research)	Realer Verbrauch pro automatisierte Sitzung	Keine Daten
Google Agent (Gemini Deep Research)	Realer Verbrauch pro Sitzung	Anfrage abgelehnt
Google Video (Veo 2/3)	Verbrauch pro Clip in Produktion	Keine Daten
Meta Integrierte Inferenz	Aggregierter AI-Verbrauch in Facebook, Instagram und WhatsApp	Keine Daten
xAI Text (Grok 4)	Realer Verbrauch und Emissionen von Colossus	Keine Daten
Musikplattformen Suno / Udio	Jegliche öffentliche empirische Daten	Keine Daten
Kommerzielles Video Runway / Pika / Kling	Jegliche öffentliche empirische Daten	Keine Daten

Das Fehlen von Daten bedeutet nicht das Fehlen interner Telemetrie. Es bedeutet das Fehlen einer nützlichen Veröffentlichung für Kunden, Regulierer oder Forscher.

Was diese Tabelle offenbart

Die gravierendste Opazität liegt nicht mehr beim Training, sondern bei der wiederkehrenden kommerziellen Inferenz: Agents, Video, in Produktivitäts-Suites integrierte Tools und aggregierter Verbrauch von Plattformen mit Milliarden von Nutzern.

Die Tatsache, dass Google einen Median pro Anfrage veröffentlichen konnte und gleichzeitig konkretere Daten für intensive Dienste ablehnt, zeigt, dass die Barriere selektiv ist. Es wird genug geteilt, um ein Narrativ zu setzen, aber nicht genug, um einen Vergleich zu ermöglichen.

Die Produkte mit dem größten potenziellen regulatorischen Konfliktpotenzial sind die am wenigsten transparenten.
Agents bleiben der opakste und strategisch sensibelste Bereich des Marktes.
Ohne dienstbezogene Daten verschiebt sich die öffentliche Debatte auf wenig nützliche aggregierte Durchschnittswerte.

Wenn die Industrie den exakten Verbrauch kennt, um Kapazität, Preise und Nutzungslimits zu steuern, dann ist das Fehlen einer Veröffentlichung keine Unwissenheit: Es ist Strategie.

Wie eine Zahl entsteht, wenn keine Direktmessung existiert

Bottom-Up-Schätzungen scheitern nicht an individueller Böswilligkeit, sondern an der Akkumulation nicht beobachtbarer Hypothesen. Jeder Sprung fügt Unsicherheit hinzu: Architektur, Hardware, Auslastung, Overhead, PUE und die Aufteilung der Kosten auf mehrere Aufgaben oder Nutzer.

Wenn ein Anbieter keine Telemetrie pro Anfrage veröffentlicht, rekonstruiert der Analyst die Energiekosten von außen. Diese Arbeit kann intellektuell seriös sein und dennoch eine informierte Spekulation bleiben.

Das Problem ist kumulativ: Wenn jeder Schritt eine vernünftige Marge einführt, kann der Gesamtfehler so weit wachsen, dass der kommerzielle oder regulatorische Vergleich nutzlos wird.

1. Aktive Parameter

Proprietäre MoE-Modelle verraten nicht, wie viele Experten pro Token aktiviert werden.
Die Gesamtzahl der Parameter ist nutzlos, wenn wir nicht wissen, wie viel Architektur pro Antwort genutzt wird.
Ausgangsfehler: kann von x2 bis x10 reichen.

2. Angenommene Hardware

H100, H200, B200 oder TPU verändern die Kosten pro FLOP radikal.
Ohne Sichtbarkeit des realen Clusters startet jede Schätzung mit dem falschen Silizium.
Typische Abweichung: 50%-100%.

3. Reale Auslastung

Dieselbe Hardware verhält sich sehr unterschiedlich bei 10%, 30% oder 60% Auslastung.
Die Ökonomie von Batching und Scheduling ist für den externen Beobachter eine Blackbox.
Hier kann der Fehler auf x3-x5 anwachsen.

4. FLOPs pro Anfrage

Die Standardformel erfasst Routing, Attention, Caching und andere proprietäre Optimierungen nur unzureichend.
Zwei Prompts mit derselben Token-Anzahl kosten möglicherweise nicht dasselbe.
Die Abweichung kann von 30% bis x2 reichen.

5. Umrechnung in Energie

Ob maximaler TDP oder durchschnittlicher Verbrauch verwendet wird, verändert das Endergebnis erheblich.
Zudem verarbeiten Produktionscluster parallel mit Effizienzen, die von außen nicht einsehbar sind.
Der zusätzliche Bias kann bis zu 50% betragen.

6. System-Overhead

GPU ist nicht gleich vollständiger Knoten: CPU, Netzwerk, Speicher und Storage verbrauchen ebenfalls.
Google dokumentierte, dass ihr Beschleuniger nur 58% des Gesamtverbrauchs ausmacht.
Hier erscheint ein weiterer Sprung von 50%-100%.

7. PUE und Rechenzentrumskontext

Derselbe Workload verändert sich, ob er mit PUE 1,09 oder 1,5 und unterschiedlicher Kühlung betrieben wird.
Dichte AI-Cluster haben thermische Dynamiken, die nicht immer zum historischen PUE des Anbieters passen.
Letzte Marge: 10%-50%.

AISHA: Wenn eine Energiezahl von zu vielen unsichtbaren Annahmen abhängt, hört sie auf, ein operativer Datenpunkt zu sein, und wird zu einer sophistizierten Vermutung. Das regulatorische Ziel sollte nicht sein, besser zu raten, sondern besser zu messen.

Quellen

Gleiche Kategorie