Text (flash)
x0,17-x0,8
Consum
La guia definitiva del consum energètic per model i modalitat el 2026
Generar 10 segons de vídeo amb Veo 3.1 pot consumir tanta energia com un microones encès durant 1-2 hores.
Les consultes de text ronden ~0,3 Wh. El raonament sol moure's entre x 5 i x 130. La imatge entre x 0,3 i x 14. El vídeo comercial actual entre x 133 i x 1.400. Els agents de codi entre x 20 i x 150. L'eficiència millora cada any, però el consum total puja perquè cada millora dispara el volum d'ús (Paradoxa de Jevons).
Escala logarítmica. L'amplada usa un valor de referència conservador; a la dreta es mostra el rang documentat en fonts obertes (0,3 Wh = x1).
Això és la Paradoxa de Jevons: si alguna cosa es torna més barata i eficient, s'usa molt més i el consum total pot créixer
| Sèrie | 2024 | 2025 | 2026 | 2027 | 2028 |
|---|---|---|---|---|---|
| Eficiència per token (Wh) | 0,45 | 0,3 | 0,26 | 0,22 | 0,18 |
| Consultes diàries (milers de milions) | 0,7 | 1,5 | 3,5 | 6 | 9 |
0,24 Wh
Única mesura directa (Google Gemini)
x 133-x1.400
Vídeo comercial actual vs text
x 46
Variació entre models d'imatge
x 514
Pic extrem en benchmark reasoning (Phi-4)
Generar 10 segons de vídeo amb Veo 3.1 pot consumir tanta energia com un microones encès durant 1-2 hores.
Aquesta frase no és una exageració retòrica. És una dada mesurada. I és només la punta de l’iceberg d’una realitat que les empreses d’IA prefereixen no quantificar en públic.
A AISHA hem recopilat, creuat i verificat totes les mesures disponibles a abril de 2026 — papers acadèmics, dades de producció, benchmarks independents — per construir la guia més completa en català del consum energètic real de la intel·ligència artificial.
Això és el que sabem.
Per parlar amb números comparables, necessitem un punt de partida. La unitat de referència és la consulta estàndard de text: aproximadament 0,3 Wh (watts-hora).
Quant és això? L’energia que consumeix una bombeta LED de 10 watts durant menys de dos minuts. Sembla insignificant. Però quan es multiplica pels milers de milions de consultes diàries al món, l’impacte agregat deixa de ser trivial.
Google és l’únic proveïdor que ha publicat una mesura directa de producció: 0,24 Wh com a mediana per a consultes de text a Gemini (agost 2025, mesura d’infraestructura real, no estimació). Sam Altman va afirmar que ChatGPT consumeix 0,34 Wh de mitjana, però sense publicar cap metodologia. Anthropic no ha publicat absolutament res.
Amb aquesta referència de 0,3 Wh com a base (x1), podem comparar tot el resta.
No tots els models de text consumeixen el mateix. La diferència entre el més lleuger i el més pesat supera les 40 vegades. Aquesta taula ho mostra:
| Model | Consum per consulta | Multiplicador |
|---|---|---|
| Gemini 2.5 Flash-Lite | 0,10 – 0,15 Wh | x0,3 – x0,5 |
| Llama 4 Scout | 0,15 – 0,30 Wh | x0,5 – x1 |
| DeepSeek V4 | 0,15 – 0,35 Wh | x0,5 – x1,2 |
| GPT-5-mini | 0,20 – 0,40 Wh | x0,7 – x1,3 |
| Mistral Large | 0,25 – 0,50 Wh | x0,8 – x1,7 |
| Claude Sonnet 4.6 | 0,40 – 0,90 Wh | x1,3 – x3 |
| GPT-5.4 | 0,50 – 1,20 Wh | x1,7 – x4 |
| Gemini 2.5 Ultra | 0,35 – 0,70 Wh | x1,2 – x2,3 |
| Claude Opus 4.6 | ~4 Wh (estimat) | ~x13 |
Els models “flash” o “mini” són entre 3 i 10 vegades més eficients que els models frontier complets. Per a la immensa majoria de tasques quotidianes — resumir un text, redactar un correu electrònic, respondre una pregunta factual — el model petit és suficient.
L’elecció del model no és neutral. Triar malament pot multiplicar el teu consum per 26 vegades per a la mateixa tasca.
La revolució dels “thinking models” — models que raonen internament abans de respondre — ha canviat radicalment l’equació energètica. Generen cadenes de pensament de desenes de milers de tokens abans de donar una resposta, i aquest procés intern consumeix energia.
El quadre següent recull les mesures disponibles per als principals modes de raonament:
| Mode | Consum | Multiplicador vs. text base |
|---|---|---|
| GPT-5.4 amb raonament | 4 – 18 Wh | x13 – x60 |
| Claude amb Extended Thinking | 2 – 8 Wh | x7 – x27 |
| o3 (prompts llargs) | ~39 Wh | ~x130 |
| Deep Research (qualsevol proveïdor) | 10 – 40 Wh | x33 – x133 |
En el pitjor cas, una sola consulta amb raonament consumeix el mateix que 130 consultes de text normals.
El Hugging Face AI Energy Score v2 (desembre 2025), que mesura 205 models de codi obert en GPUs H100, va trobar resultats encara més extrems:
Activar el mode raonament quan no és necessari és com fer servir un camió de 40 tones per anar a comprar el pa.
La investigació de Bertazzini et al. (juny 2025) va mesurar 17 models de difusió en una RTX 4090 i va trobar una variació de 46 vegades entre el més eficient i el menys eficient.
Aquests són els extrems de l’espectre:
| Model | Consum per imatge | Equivalència |
|---|---|---|
| LCM_SSD_1B (més eficient) | 0,086 Wh | ~0,3 consultes de text |
| Ideogram 3 | 0,8 – 2,5 Wh | 3 – 8 consultes |
| Midjourney v7 | 1 – 4 Wh | 3 – 13 consultes |
| DALL-E 4 | 2 – 6 Wh | 7 – 20 consultes |
| Imagen nativa GPT-4o | ~3 Wh | ~10 consultes |
| Lumina (menys eficient) | 4,08 Wh | ~14 consultes |
La diferència entre el model més barat i el més car és la diferència entre encendre una llanterna i encendre un forn.
Una troballa contraintuïtiva: la quantització int8, que se suposa que redueix el consum, en realitat l’augmenta fins a un 64,5% en alguns models d’imatge. L’eficiència no sempre és el que sembla.
700 milions d’imatges en una setmana. Això és el que van generar els usuaris quan OpenAI va llançar la generació nativa d’imatges a GPT-4o. Equival aproximadament a 2.100 MWh només en generació d’imatges, en set dies.
Si el text és la bicicleta, el vídeo és l’avió. La investigació de Delavande i Luccioni (setembre 2025) va mesurar 7 models de vídeo de codi obert en H100 i va documentar un rang de 800 vegades entre el més barat i el més car.
Aquests números parlen per si mateixos:
| Model | Durada | Consum | Multiplicador vs. text |
|---|---|---|---|
| AnimateDiff (més eficient) | 2 seg | 0,14 Wh | x0,5 |
| Runway Gen-3 | 5 seg | 3 – 8 Wh | x10 – x27 |
| WAN2.1-14B | 5 seg | ~109 Wh | ~x363 |
| Kling 3.0 | 15 seg | ~400 Wh | ~x1.333 |
| Sora 2 | 10 seg | ~1.000 Wh | ~x3.333 |
944 Wh per clip de 5 segons. Això és el que consumia Sora — tanta energia com carregar un smartphone durant un mes. OpenAI el va tancar el 24 de març de 2026 després d’acumular ingressos totals de 2,1 milions de dòlars enfront de costos operatius estimats de 15 milions de dòlars diaris.
Un detall tècnic que agreuja el problema: duplicar la durada del vídeo quadruplica el consum energètic. La relació no és lineal — és exponencial.
Passoni et al. (maig 2025) van publicar l’únic paper amb mesures de generació d’àudio (text-a-àudio), amb 7 models en GPUs NVIDIA A40:
La troballa preocupant: els models més nous consumeixen consistentment més energia que els antics. La indústria prioritza la qualitat per sobre de l’eficiència, sense excepcions.
Un sol paper. Set models. Zero dades dels serveis comercials. Aquesta és tota la transparència que existeix avui en àudio generatiu.
Els agents de codi representen un nou paradigma de consum. Simon P. Couch va analitzar sessions de Claude Code (gener 2026) i va trobar que una sessió mediana processa 592.000 tokens i consumeix aproximadament 41 Wh — l’equivalent a 136 consultes de text convencionals.
Les sessions complexes poden assolir 50 a 200 Wh. Un desenvolupador que fa servir agents de codi durant una jornada completa pot consumir tanta energia com una llar europea mitjana en un dia.
Un desenvolupador amb un agent de codi encès vuit hores consumeix el mateix que la seva nevera en 24 hores.
Aquesta és potser la dada més important de tota la guia: l’eficiència per consulta millora constantment, però el consum total no para de créixer.
Google va demostrar una millora d’eficiència de 33 vegades en 12 mesos (maig 2024 a maig 2025). I tanmateix, les seves emissions totals de carboni van augmentar un 48-50% en el mateix període. El seu consum elèctric real va créixer un 27%, encara que la seva comptabilitat basada en certificats d’energia renovable (market-based) va declarar una “reducció del 12%”.
És la Paradoxa de Jevons aplicada a la IA: quan un recurs s’usa de forma més eficient, el seu cost baixa, es torna més accessible, el volum d’ús es dispara i el consum total augmenta.
Les dades ho confirmen:
L’eficiència és necessària però insuficient. Sense governança de la demanda — triar el model adequat, evitar l’ús innecessari, mesurar l’impacte — la millora tecnològica només accelera el problema.
Tot l’anterior es basa en les mesures que existeixen. Però hi ha categories senceres de les quals no tenim cap dada:
La barrera no és tècnica. NVIDIA DCGM, el sistema de monitorització de GPUs, ja està desplegat a cada centre de dades del món. Les APIs ja reporten costos en dòlars per crida. Afegir un camp energy_wh seria trivial.
Les empreses trien no fer-ho. La barrera és política, no tècnica.
Si ets usuari: Fes servir la nostra calculadora de petjada d’IA per estimar el teu consum. Com a regla general: text < imatge < àudio < codi < raonament < vídeo. El model més petit que resolgui la teva tasca és sempre la millor elecció.
Si ets empresa: El consum d’IA ja és part de la teva petjada de carboni sota CSRD. Exigeix als teus proveïdors dades de consum per servei. Si Google pot publicar 0,24 Wh, els altres també poden.
Si ets desenvolupador: Flash/mini per defecte. Raonament només quan el problema ho requereixi. Fes servir cache de resultats. Cada decisió d’arquitectura té un cost energètic que es multiplica per milions d’usuaris.
Si ets regulador: La mesura és possible avui, amb tecnologia que ja existeix a cada datacenter. Les etiquetes energètiques d’electrodomèstics van reduir el consum un 60% en 30 anys. La IA necessita la seva pròpia etiqueta.
Relacionats
La brecha entre la inversión en IA y el valor real que genera — y qué pueden hacer las empresas para estar en el 5% que sí funciona
Manifiesto AISHA: por qué defendemos la inteligencia artificial y por qué exigimos que se use de forma responsable
La nostra calculadora t'ajuda a contextualitzar consultes, imatges, raonament i agents.
Obrir calculadora