Escala visual comparant el consum energètic de diferents tipus d'IA: text, imatge, àudio, codi i vídeo

Quanta energia consumeix la IA que fas servir cada dia?

La guia definitiva del consum energètic per model i modalitat el 2026

Per AISHA · 12 de febrer del 2026 · 9 min de lectura

Generar 10 segons de vídeo amb Veo 3.1 pot consumir tanta energia com un microones encès durant 1-2 hores.

Les consultes de text ronden ~0,3 Wh. El raonament sol moure's entre x 5 i x 130. La imatge entre x 0,3 i x 14. El vídeo comercial actual entre x 133 i x 1.400. Els agents de codi entre x 20 i x 150. L'eficiència millora cada any, però el consum total puja perquè cada millora dispara el volum d'ús (Paradoxa de Jevons).

Consum energètic per modalitat d'IA

Escala logarítmica. L'amplada usa un valor de referència conservador; a la dreta es mostra el rang documentat en fonts obertes (0,3 Wh = x1).

Text (flash)

x0,17-x0,8

Text (frontier)

x0,8-x4

Raonament

x5-x130

Imatge

x0,3-x14

Àudio

x0,8-x7

Agent codi

x20-x150

Vídeo

x133-x1.400

Encara que cada consulta gasti menys, en fer-ne moltes més la despesa total puja

Això és la Paradoxa de Jevons: si alguna cosa es torna més barata i eficient, s'usa molt més i el consum total pot créixer

Sèrie 20242025202620272028
Eficiència per token (Wh) 0,450,30,260,220,18
Consultes diàries (milers de milions) 0,71,53,569

0,24 Wh

Única mesura directa (Google Gemini)

x 133-x1.400

Vídeo comercial actual vs text

x 46

Variació entre models d'imatge

x 514

Pic extrem en benchmark reasoning (Phi-4)

Generar 10 segons de vídeo amb Veo 3.1 pot consumir tanta energia com un microones encès durant 1-2 hores.

Aquesta frase no és una exageració retòrica. És una dada mesurada. I és només la punta de l’iceberg d’una realitat que les empreses d’IA prefereixen no quantificar en públic.

A AISHA hem recopilat, creuat i verificat totes les mesures disponibles a abril de 2026 — papers acadèmics, dades de producció, benchmarks independents — per construir la guia més completa en català del consum energètic real de la intel·ligència artificial.

Això és el que sabem.


Tot comença amb un número: 0,3 Wh

Per parlar amb números comparables, necessitem un punt de partida. La unitat de referència és la consulta estàndard de text: aproximadament 0,3 Wh (watts-hora).

Quant és això? L’energia que consumeix una bombeta LED de 10 watts durant menys de dos minuts. Sembla insignificant. Però quan es multiplica pels milers de milions de consultes diàries al món, l’impacte agregat deixa de ser trivial.

Google és l’únic proveïdor que ha publicat una mesura directa de producció: 0,24 Wh com a mediana per a consultes de text a Gemini (agost 2025, mesura d’infraestructura real, no estimació). Sam Altman va afirmar que ChatGPT consumeix 0,34 Wh de mitjana, però sense publicar cap metodologia. Anthropic no ha publicat absolutament res.

Amb aquesta referència de 0,3 Wh com a base (x1), podem comparar tot el resta.


Text: la modalitat més barata (i la més desigual)

No tots els models de text consumeixen el mateix. La diferència entre el més lleuger i el més pesat supera les 40 vegades. Aquesta taula ho mostra:

ModelConsum per consultaMultiplicador
Gemini 2.5 Flash-Lite0,10 – 0,15 Whx0,3 – x0,5
Llama 4 Scout0,15 – 0,30 Whx0,5 – x1
DeepSeek V40,15 – 0,35 Whx0,5 – x1,2
GPT-5-mini0,20 – 0,40 Whx0,7 – x1,3
Mistral Large0,25 – 0,50 Whx0,8 – x1,7
Claude Sonnet 4.60,40 – 0,90 Whx1,3 – x3
GPT-5.40,50 – 1,20 Whx1,7 – x4
Gemini 2.5 Ultra0,35 – 0,70 Whx1,2 – x2,3
Claude Opus 4.6~4 Wh (estimat)~x13

Els models “flash” o “mini” són entre 3 i 10 vegades més eficients que els models frontier complets. Per a la immensa majoria de tasques quotidianes — resumir un text, redactar un correu electrònic, respondre una pregunta factual — el model petit és suficient.

L’elecció del model no és neutral. Triar malament pot multiplicar el teu consum per 26 vegades per a la mateixa tasca.


Raonament: quan pensar pot costar fins a 130 vegades més

La revolució dels “thinking models” — models que raonen internament abans de respondre — ha canviat radicalment l’equació energètica. Generen cadenes de pensament de desenes de milers de tokens abans de donar una resposta, i aquest procés intern consumeix energia.

El quadre següent recull les mesures disponibles per als principals modes de raonament:

ModeConsumMultiplicador vs. text base
GPT-5.4 amb raonament4 – 18 Whx13 – x60
Claude amb Extended Thinking2 – 8 Whx7 – x27
o3 (prompts llargs)~39 Wh~x130
Deep Research (qualsevol proveïdor)10 – 40 Whx33 – x133

En el pitjor cas, una sola consulta amb raonament consumeix el mateix que 130 consultes de text normals.

El Hugging Face AI Energy Score v2 (desembre 2025), que mesura 205 models de codi obert en GPUs H100, va trobar resultats encara més extrems:

  • Phi-4-reasoning-plus: multiplicador de x514 en activar raonament (de 0,018 Wh a 9,46 Wh)
  • DeepSeek-R1-Distill-Llama-70B: multiplicador de x154 (de 0,050 Wh a 7,63 Wh)
  • SmolLM3-3B: 13 Wh per a una sola pregunta amb raonament activat

Activar el mode raonament quan no és necessari és com fer servir un camió de 40 tones per anar a comprar el pa.


Imatges: cada foto d’IA equival a carregar el teu mòbil

La investigació de Bertazzini et al. (juny 2025) va mesurar 17 models de difusió en una RTX 4090 i va trobar una variació de 46 vegades entre el més eficient i el menys eficient.

Aquests són els extrems de l’espectre:

ModelConsum per imatgeEquivalència
LCM_SSD_1B (més eficient)0,086 Wh~0,3 consultes de text
Ideogram 30,8 – 2,5 Wh3 – 8 consultes
Midjourney v71 – 4 Wh3 – 13 consultes
DALL-E 42 – 6 Wh7 – 20 consultes
Imagen nativa GPT-4o~3 Wh~10 consultes
Lumina (menys eficient)4,08 Wh~14 consultes

La diferència entre el model més barat i el més car és la diferència entre encendre una llanterna i encendre un forn.

Una troballa contraintuïtiva: la quantització int8, que se suposa que redueix el consum, en realitat l’augmenta fins a un 64,5% en alguns models d’imatge. L’eficiència no sempre és el que sembla.

700 milions d’imatges en una setmana. Això és el que van generar els usuaris quan OpenAI va llançar la generació nativa d’imatges a GPT-4o. Equival aproximadament a 2.100 MWh només en generació d’imatges, en set dies.


Vídeo: el gran devorador d’energia

Si el text és la bicicleta, el vídeo és l’avió. La investigació de Delavande i Luccioni (setembre 2025) va mesurar 7 models de vídeo de codi obert en H100 i va documentar un rang de 800 vegades entre el més barat i el més car.

Aquests números parlen per si mateixos:

ModelDuradaConsumMultiplicador vs. text
AnimateDiff (més eficient)2 seg0,14 Whx0,5
Runway Gen-35 seg3 – 8 Whx10 – x27
WAN2.1-14B5 seg~109 Wh~x363
Kling 3.015 seg~400 Wh~x1.333
Sora 210 seg~1.000 Wh~x3.333

944 Wh per clip de 5 segons. Això és el que consumia Sora — tanta energia com carregar un smartphone durant un mes. OpenAI el va tancar el 24 de març de 2026 després d’acumular ingressos totals de 2,1 milions de dòlars enfront de costos operatius estimats de 15 milions de dòlars diaris.

Un detall tècnic que agreuja el problema: duplicar la durada del vídeo quadruplica el consum energètic. La relació no és lineal — és exponencial.


Àudio: la modalitat que ningú mesura

Passoni et al. (maig 2025) van publicar l’únic paper amb mesures de generació d’àudio (text-a-àudio), amb 7 models en GPUs NVIDIA A40:

  • AudioLDM (més eficient): ~0,25 Wh per clip de 10 segons
  • Tango2 (menys eficient): ~2,0 Wh per clip de 10 segons

La troballa preocupant: els models més nous consumeixen consistentment més energia que els antics. La indústria prioritza la qualitat per sobre de l’eficiència, sense excepcions.

Un sol paper. Set models. Zero dades dels serveis comercials. Aquesta és tota la transparència que existeix avui en àudio generatiu.


Agents de codi: 136 consultes en una sola sessió

Els agents de codi representen un nou paradigma de consum. Simon P. Couch va analitzar sessions de Claude Code (gener 2026) i va trobar que una sessió mediana processa 592.000 tokens i consumeix aproximadament 41 Wh — l’equivalent a 136 consultes de text convencionals.

Les sessions complexes poden assolir 50 a 200 Wh. Un desenvolupador que fa servir agents de codi durant una jornada completa pot consumir tanta energia com una llar europea mitjana en un dia.

Un desenvolupador amb un agent de codi encès vuit hores consumeix el mateix que la seva nevera en 24 hores.


La paradoxa que ho explica tot

Aquesta és potser la dada més important de tota la guia: l’eficiència per consulta millora constantment, però el consum total no para de créixer.

Google va demostrar una millora d’eficiència de 33 vegades en 12 mesos (maig 2024 a maig 2025). I tanmateix, les seves emissions totals de carboni van augmentar un 48-50% en el mateix període. El seu consum elèctric real va créixer un 27%, encara que la seva comptabilitat basada en certificats d’energia renovable (market-based) va declarar una “reducció del 12%”.

És la Paradoxa de Jevons aplicada a la IA: quan un recurs s’usa de forma més eficient, el seu cost baixa, es torna més accessible, el volum d’ús es dispara i el consum total augmenta.

Les dades ho confirmen:

  • Eficiència per token: millora un 15-30% anual
  • Volum de consultes diàries: creix de 0,4-1,0 mil milions (2024) a 2,5-5,0 mil milions (2026)
  • Resultat net: el consum total puja un 25% anual

L’eficiència és necessària però insuficient. Sense governança de la demanda — triar el model adequat, evitar l’ús innecessari, mesurar l’impacte — la millora tecnològica només accelera el problema.


Els forats negres: el que NO sabem

Tot l’anterior es basa en les mesures que existeixen. Però hi ha categories senceres de les quals no tenim cap dada:

  • Deep Research de qualsevol proveïdor (les estimacions varien entre 10 i 40 Wh — un rang de x4)
  • Generació d’imatge comercial (DALL-E, Midjourney, Ideogram estan exclosos dels benchmarks acadèmics)
  • Sora i models de vídeo propietaris (les estimacions variaven x27: de 35 a 936 Wh)
  • Generació de música (Suno, Udio: literalment zero dades publicades)
  • Inferència propietària (GPT-5, Claude en producció, Grok: sense mesures independents)

La barrera no és tècnica. NVIDIA DCGM, el sistema de monitorització de GPUs, ja està desplegat a cada centre de dades del món. Les APIs ja reporten costos en dòlars per crida. Afegir un camp energy_wh seria trivial.

Les empreses trien no fer-ho. La barrera és política, no tècnica.


Què puc fer jo?

  • Si ets usuari: Fes servir la nostra calculadora de petjada d’IA per estimar el teu consum. Com a regla general: text < imatge < àudio < codi < raonament < vídeo. El model més petit que resolgui la teva tasca és sempre la millor elecció.

  • Si ets empresa: El consum d’IA ja és part de la teva petjada de carboni sota CSRD. Exigeix als teus proveïdors dades de consum per servei. Si Google pot publicar 0,24 Wh, els altres també poden.

  • Si ets desenvolupador: Flash/mini per defecte. Raonament només quan el problema ho requereixi. Fes servir cache de resultats. Cada decisió d’arquitectura té un cost energètic que es multiplica per milions d’usuaris.

  • Si ets regulador: La mesura és possible avui, amb tecnologia que ja existeix a cada datacenter. Les etiquetes energètiques d’electrodomèstics van reduir el consum un 60% en 30 anys. La IA necessita la seva pròpia etiqueta.

Fonts

Relacionats

Continuar explorant AISHA

Següent pas

Calcula l'impacte aproximat de l'ús que fas de la IA.

La nostra calculadora t'ajuda a contextualitzar consultes, imatges, raonament i agents.

Obrir calculadora