Gemini 2.5 Flash-Lite (consulta ràpida)
0,17 x
Consum
Quanta energia costa que la IA 'pensi' de debò — i per què el mode de raonament activat per defecte és un problema
Una consulta llarga amb raonament al model o3 d'OpenAI consumeix 39,2 Wh — mesura directa. Això és x 131 més que una consulta de text simple (0,3 Wh). I hi ha models on el multiplicador arriba a x 514.
El reasoning de la IA — la capacitat de 'pensar abans de respondre' — multiplica el consum energètic entre x 10 i x 500 segons el model i la tasca. Els models de raonament consumeixen de mitjana x 30 més que els estàndard. Els agents de codi arriben a 41 Wh per sessió mediana (x 137). El problema: molts models activen el raonament per defecte, fins i tot quan no cal.
x 131
Multiplicador d'o3 reasoning llarg (mesurat)
x 30
Mitjana de models de raonament vs. estàndard (HF)
41 Wh
Sessió mediana de Claude Code (mesurada)
70 %
Tokens malbaratats en agents de codi
39,2 Wh. Això és el que consumeix una consulta llarga amb raonament al model o3 d’OpenAI — mesura directa, confiança alta. És x131 més que una consulta simple de text (0,3 Wh). La mateixa energia que carregar el teu smartphone gairebé tres vegades.
I o3 no és el cas extrem. El AI Energy Score v2 de Hugging Face va trobar que els models de raonament consumeixen de mitjana x30 més que els estàndard. Alguns arriben a x700.
La diferència entre preguntar alguna cosa a una IA i demanar-li que pensi no és incremental. És d’ordres de magnitud.
Des de 2024, els principals models d’IA incorporen un mode de “raonament” o “thinking”: en lloc de respondre immediatament, el model genera una cadena interna de pensament — de vegades milers de tokens invisibles — abans de produir la resposta final.
Aquest procés és computacionalment molt car perquè:
Dauner i Socher van documentar que els models de raonament emeten fins a x50 més CO₂ que els models concisos, amb un cas de 37.575 tokens per a una sola resposta.
El AI Energy Score v2 de Hugging Face (desembre 2025), basat en mesures directes en maquinari H100, proporciona les dades més sòlides:
| Model | Sense raonament | Amb raonament | Multiplicador |
|---|---|---|---|
| DeepSeek-R1-Distill-Llama-70B | 0,050 Wh | 7,63 Wh | x154 |
| Phi-4-reasoning-plus | 0,018 Wh | 9,46 Wh | x514 |
Són mesures reals, no estimacions. I confirmen que el raonament no és un cost marginal — és un canvi d’escala.
Les estimacions calibrades per als models comercials tancats mostren el mateix patró:
| Model | Sense raonament | Amb raonament |
|---|---|---|
| GPT-5 | 0,4-1,0 Wh | 8-45 Wh |
| GPT-5.4 | 0,5-1,2 Wh | 4-18 Wh |
| Claude Sonnet 4.6 | 0,25-0,6 Wh | 1,5-8 Wh |
| Claude Opus 4.6 | 0,6-1,5 Wh | 5-20 Wh |
| Gemini 2.5 Pro | 0,25-0,6 Wh | 2-12 Wh |
| Gemini 2.5 Flash | 0,12-0,25 Wh | 0,6-2,5 Wh |
| DeepSeek-V3.2 | 0,08-0,18 Wh | 1,5-8 Wh |
Gemini 2.5 Flash-Lite és l’excepció notable: fins i tot amb thinking actiu, es manté en 0,2-0,8 Wh — demostrant que el raonament eficient és possible.
El raonament no és gratuït. És un multiplicador de cost que va de x10 a x500 segons el model. Cada vegada que actives “thinking” estàs triant — conscientment o inconscientment — consumir un ordre de magnitud més d’energia.
Si el raonament puntual ja és car, els agents de codi porten aquest cost a l’extrem: apliquen raonament de forma iterativa, en bucles que poden durar desenes de minuts, llegint fitxers, executant comandes, verificant resultats i tornant a començar.
Simon P. Couch va mesurar el gener de 2026 el consum real de Claude Code en sessions de programació:
Els altres agents operen en rangs similars:
Morph va publicar l’abril de 2026 una anàlisi reveladora: el 70% dels tokens consumits per agents de codi són malbaratament:
Un fix d’un sol caràcter va consumir més de 21.000 tokens d’entrada. Claude Code usa x4,2 més tokens que Aider per a tasques idèntiques (479.000 vs ~105.000).
Els sistemes de Deep Research representen l’extrem del raonament: una sola pregunta dispara desenes de cerques web, lectura de pàgines, execució de codi i síntesi iterativa. El resultat és un informe d’investigació — i el cost energètic ho reflecteix.
| Sistema | Energia per informe | Multiplicador |
|---|---|---|
| OpenAI DR (o3) | 35-120 Wh | x117-x400 |
| Gemini Deep Research | 20-80 Wh | x67-x267 |
| Claude Research | 20-70 Wh | x67-x233 |
| Perplexity Deep Research | 15-60 Wh | x50-x200 |
| OpenAI DR (o4-mini) | 8-25 Wh | x27-x83 |
| Grok DeepSearch | 8-30 Wh | x27-x100 |
Simon Willison va documentar una sessió de Deep Research amb o4-mini: 60.506 tokens d’entrada, 22.883 de sortida (el 89% eren tokens de raonament intern), 77 crides a eines (45 cerques + 24 visites a pàgines + 12 execucions de codi). Cost: ~$1,10.
Un exemple de Perplexity: 7 tokens d’entrada de l’usuari, 3.847 de sortida, però 308.156 tokens de raonament invisible. El raonament va representar entre el 54% i el 78% del cost total.
Aquí és on hi ha el risc real: diversos models activen el raonament per defecte, fins i tot per a preguntes que no ho necessiten.
És com si un cotxe tingués el turbo activat permanentment, fins i tot per anar a comprar el pa.
El mode de raonament hauria de ser opt-in, no opt-out. Activar-lo per defecte per a totes les consultes és un malbaratament energètic sistemàtic a escala de centenars de milions d’usuaris.
Per posar-ho tot en perspectiva, aquesta és l’escala completa des de la consulta més lleugera fins a la més pesada:
| Acció | Energia | Multiplicador |
|---|---|---|
| Gemini 2.5 Flash-Lite (consulta ràpida) | 0,05 Wh | x0,17 |
| Consulta simple de text (referència) | 0,3 Wh | x1 |
| Claude Sonnet 4.6 (adaptive/high) | 1,5-8 Wh | x5-x27 |
| Gemini 2.5 Pro (thinking) | 2-12 Wh | x7-x40 |
| GPT-5 (mitjana, estimació URI) | 18,9 Wh | x63 |
| DeepSeek-R1 (llarga, mesura directa) | 33,6 Wh | x112 |
| o3 (llarga, mesura directa) | 39,2 Wh | x131 |
| Claude Code (sessió mediana, mesurada) | 41 Wh | x137 |
| Deep Research o3 (informe complet) | 35-120 Wh | x117-x400 |
| Sora 2 (clip 10s, abans del tancament) | 90-936 Wh | x300-x3.120 |
De la consulta més lleugera a la més pesada hi ha un factor de x18.000. No són variacions — són mons de consum completament diferents disfressats sota el mateix interfície de xat.
Si ets usuari: Desactiva el mode de raonament quan no el necessitis. La majoria de consultes quotidianes — redacció, cerques, resums, traduccions — es resolen millor i més ràpidament sense thinking. Reserva el raonament per a problemes que realment ho requereixin: anàlisis complexes, codi difícil, investigació profunda.
Si dirigeixes un equip tècnic: Estableix una política de cascada de models: Flash-Lite/mini per a tasques rutinàries, model estàndard per a tasques generals, raonament només quan hi ha un ROI clar. Pot reduir el consum del teu equip en un 80-90% sense afectar la qualitat del resultat.
Si ets desenvolupador: Desactiva el thinking per defecte en les teves integracions. Usa thinking: "off" o equivalent com a default i activa’l només quan la tasca ho justifiqui. Implementa pressupostos de tokens de raonament. I considera agents més lleugers com Aider (x4 menys tokens que Claude Code per a tasques equivalents).
Si treballes en regulació: El raonament activat per defecte és un cas clar de consum energètic innecessari a escala massiva. Una normativa que exigís als proveïdors oferir el mode eficient com a opció per defecte — com el mode ECO dels electrodomèstics — tindria un impacte mesurable en el consum global d’IA.
Relacionats
Por qué generar imágenes con IA cuesta entre 3 y 33 veces más energía que una consulta de texto — y qué puedes hacer al respecto
Inventario forense de todo lo que sabemos — y lo que no — sobre la energía que consume la inteligencia artificial
La guía definitiva del consumo energético por modelo y modalidad en 2026
La nostra calculadora t'ajuda a contextualitzar consultes, imatges, raonament i agents.
Obrir calculadora