Reasoning vs. resposta ràpida: la consulta que consumeix x130 més

El reasoning de la IA — la capacitat de 'pensar abans de respondre' — multiplica el consum energètic entre x 10 i x 500 segons el model i la tasca. Els models de raonament consumeixen de mitjana x 30 més que els estàndard. Els agents de codi arriben a 41 Wh per sessió mediana (x 137). El problema: molts models activen el raonament per defecte, fins i tot quan no cal.

39,2 Wh. Això és el que consumeix una consulta llarga amb raonament al model o3 d’OpenAI — mesura directa, confiança alta. És x131 més que una consulta simple de text (0,3 Wh). La mateixa energia que carregar el teu smartphone gairebé tres vegades.

I o3 no és el cas extrem. El AI Energy Score v2 de Hugging Face va trobar que els models de raonament consumeixen de mitjana x30 més que els estàndard. Alguns arriben a x700.

La diferència entre preguntar alguna cosa a una IA i demanar-li que pensi no és incremental. És d’ordres de magnitud.

Què és el raonament i per què costa tant

Des de 2024, els principals models d’IA incorporen un mode de “raonament” o “thinking”: en lloc de respondre immediatament, el model genera una cadena interna de pensament — de vegades milers de tokens invisibles — abans de produir la resposta final.

Aquest procés és computacionalment molt car perquè:

Genera tokens ocults: El model pot produir 10-100 vegades més tokens interns dels que mostra a l’usuari. Cada token consumeix energia encara que mai el vegis.
Activa capes addicionals: Els models de raonament solen activar més paràmetres, més capes d’atenció i més cicles de verificació interna.
Escala amb la complexitat: A diferència d’una resposta ràpida (cost relativament fix), el raonament escala amb la dificultat del problema. Una pregunta complexa pot generar 10 minuts de “pensament” intern.

Dauner i Socher van documentar que els models de raonament emeten fins a x50 més CO₂ que els models concisos, amb un cas de 37.575 tokens per a una sola resposta.

Les dades: model per model

El AI Energy Score v2 de Hugging Face (desembre 2025), basat en mesures directes en maquinari H100, proporciona les dades més sòlides:

Model	Sense raonament	Amb raonament	Multiplicador
DeepSeek-R1-Distill-Llama-70B	0,050 Wh	7,63 Wh	x154
Phi-4-reasoning-plus	0,018 Wh	9,46 Wh	x514

Són mesures reals, no estimacions. I confirmen que el raonament no és un cost marginal — és un canvi d’escala.

Les estimacions calibrades per als models comercials tancats mostren el mateix patró:

Model	Sense raonament	Amb raonament
GPT-5	0,4-1,0 Wh	8-45 Wh
GPT-5.4	0,5-1,2 Wh	4-18 Wh
Claude Sonnet 4.6	0,25-0,6 Wh	1,5-8 Wh
Claude Opus 4.6	0,6-1,5 Wh	5-20 Wh
Gemini 2.5 Pro	0,25-0,6 Wh	2-12 Wh
Gemini 2.5 Flash	0,12-0,25 Wh	0,6-2,5 Wh
DeepSeek-V3.2	0,08-0,18 Wh	1,5-8 Wh

Gemini 2.5 Flash-Lite és l’excepció notable: fins i tot amb thinking actiu, es manté en 0,2-0,8 Wh — demostrant que el raonament eficient és possible.

El raonament no és gratuït. És un multiplicador de cost que va de x10 a x500 segons el model. Cada vegada que actives “thinking” estàs triant — conscientment o inconscientment — consumir un ordre de magnitud més d’energia.

Agents de codi: el raonament en bucle

Si el raonament puntual ja és car, els agents de codi porten aquest cost a l’extrem: apliquen raonament de forma iterativa, en bucles que poden durar desenes de minuts, llegint fitxers, executant comandes, verificant resultats i tornant a començar.

Simon P. Couch va mesurar el gener de 2026 el consum real de Claude Code en sessions de programació:

Sessió mediana: 592.439 tokens en 24 intercanvis interactius
Consum per sessió: 41 Wh — x137 la referència base
Ús intensiu diari (2-3 instàncies simultànies): ~1.300 Wh — l’equivalent a un cicle de rentaplats

Els altres agents operen en rangs similars:

Claude Code + Opus 4.6: 45-70 Wh per sessió (x150-x233)
GPT-5.3-Codex: 12-40 Wh per tasca (x40-x133)
Devin 2.0: 10-60 Wh per tasca autònoma (x33-x200)
Cursor AI: 5-25 Wh per sessió intensa (x17-x83)
GitHub Copilot Agent: 3-15 Wh per flux PR (x10-x50)
Aider: 2-9 Wh per tasca (x7-x30)

El problema dels tokens malbaratats

Morph va publicar l’abril de 2026 una anàlisi reveladora: el 70% dels tokens consumits per agents de codi són malbaratament:

35-45% en lectura de fitxers
15-25% en sortida d’eines
15-20% en reenviament de context
10-15% en raonament intern
Només el 5-15% genera codi real

Un fix d’un sol caràcter va consumir més de 21.000 tokens d’entrada. Claude Code usa x4,2 més tokens que Aider per a tasques idèntiques (479.000 vs ~105.000).

Deep Research: la consulta que substitueix un analista

Els sistemes de Deep Research representen l’extrem del raonament: una sola pregunta dispara desenes de cerques web, lectura de pàgines, execució de codi i síntesi iterativa. El resultat és un informe d’investigació — i el cost energètic ho reflecteix.

Sistema	Energia per informe	Multiplicador
OpenAI DR (o3)	35-120 Wh	x117-x400
Gemini Deep Research	20-80 Wh	x67-x267
Claude Research	20-70 Wh	x67-x233
Perplexity Deep Research	15-60 Wh	x50-x200
OpenAI DR (o4-mini)	8-25 Wh	x27-x83
Grok DeepSearch	8-30 Wh	x27-x100

Simon Willison va documentar una sessió de Deep Research amb o4-mini: 60.506 tokens d’entrada, 22.883 de sortida (el 89% eren tokens de raonament intern), 77 crides a eines (45 cerques + 24 visites a pàgines + 12 execucions de codi). Cost: ~$1,10.

Un exemple de Perplexity: 7 tokens d’entrada de l’usuari, 3.847 de sortida, però 308.156 tokens de raonament invisible. El raonament va representar entre el 54% i el 78% del cost total.

El problema del “thinking per defecte”

Aquí és on hi ha el risc real: diversos models activen el raonament per defecte, fins i tot per a preguntes que no ho necessiten.

Claude Sonnet 4.6 té el mode “adaptive thinking” activat per defecte. Una consulta simple que es podria resoldre en 0,3 Wh es processa amb raonament innecessari, consumint 1,5-8 Wh.
GPT-5 usa un router que barreja resposta ràpida i raonament segons el seu criteri — no el de l’usuari.
Claude Opus 4.6 opera per defecte en mode thinking, tot i que se li redueixi el preu: reduir el preu no equival a reduir el consum energètic.

És com si un cotxe tingués el turbo activat permanentment, fins i tot per anar a comprar el pa.

El mode de raonament hauria de ser opt-in, no opt-out. Activar-lo per defecte per a totes les consultes és un malbaratament energètic sistemàtic a escala de centenars de milions d’usuaris.

La taula de multiplicadors definitiva

Per posar-ho tot en perspectiva, aquesta és l’escala completa des de la consulta més lleugera fins a la més pesada:

Acció	Energia	Multiplicador
Gemini 2.5 Flash-Lite (consulta ràpida)	0,05 Wh	x0,17
Consulta simple de text (referència)	0,3 Wh	x1
Claude Sonnet 4.6 (adaptive/high)	1,5-8 Wh	x5-x27
Gemini 2.5 Pro (thinking)	2-12 Wh	x7-x40
GPT-5 (mitjana, estimació URI)	18,9 Wh	x63
DeepSeek-R1 (llarga, mesura directa)	33,6 Wh	x112
o3 (llarga, mesura directa)	39,2 Wh	x131
Claude Code (sessió mediana, mesurada)	41 Wh	x137
Deep Research o3 (informe complet)	35-120 Wh	x117-x400
Sora 2 (clip 10s, abans del tancament)	90-936 Wh	x300-x3.120

De la consulta més lleugera a la més pesada hi ha un factor de x18.000. No són variacions — són mons de consum completament diferents disfressats sota el mateix interfície de xat.

Què puc fer jo?

Si ets usuari: Desactiva el mode de raonament quan no el necessitis. La majoria de consultes quotidianes — redacció, cerques, resums, traduccions — es resolen millor i més ràpidament sense thinking. Reserva el raonament per a problemes que realment ho requereixin: anàlisis complexes, codi difícil, investigació profunda.
Si dirigeixes un equip tècnic: Estableix una política de cascada de models: Flash-Lite/mini per a tasques rutinàries, model estàndard per a tasques generals, raonament només quan hi ha un ROI clar. Pot reduir el consum del teu equip en un 80-90% sense afectar la qualitat del resultat.
Si ets desenvolupador: Desactiva el thinking per defecte en les teves integracions. Usa thinking: "off" o equivalent com a default i activa’l només quan la tasca ho justifiqui. Implementa pressupostos de tokens de raonament. I considera agents més lleugers com Aider (x4 menys tokens que Claude Code per a tasques equivalents).
Si treballes en regulació: El raonament activat per defecte és un cas clar de consum energètic innecessari a escala massiva. Una normativa que exigís als proveïdors oferir el mode eficient com a opció per defecte — com el mode ECO dels electrodomèstics — tindria un impacte mesurable en el consum global d’IA.

Reasoning vs. resposta ràpida: la consulta que consumeix x130 més

Multiplicador energètic: reasoning vs. resposta ràpida (base = 0,3 Wh)

Què és el raonament i per què costa tant

Les dades: model per model

Agents de codi: el raonament en bucle

El problema dels tokens malbaratats

Deep Research: la consulta que substitueix un analista

El problema del “thinking per defecte”

La taula de multiplicadors definitiva

Què puc fer jo?

Fonts

Continuar explorant AISHA

Una imagen de IA consume lo mismo que cargar tu móvil 4 veces

Solo existen 10 mediciones reales del consumo de IA en el mundo

¿Cuánta energía consume la IA que usas cada día?

Següent pas

Calcula l'impacte aproximat de l'ús que fas de la IA.