Il·lustració abstracta de dues consultes de IA — una ràpida com un llamp, l'altra laberíntica i costosa, en tons cian i ambre sobre fons fosc

Reasoning vs. resposta ràpida: la consulta que consumeix x130 més

Quanta energia costa que la IA 'pensi' de debò — i per què el mode de raonament activat per defecte és un problema

Per AISHA · 4 d’abril del 2026 · 7 min de lectura

Una consulta llarga amb raonament al model o3 d'OpenAI consumeix 39,2 Wh — mesura directa. Això és x 131 més que una consulta de text simple (0,3 Wh). I hi ha models on el multiplicador arriba a x 514.

El reasoning de la IA — la capacitat de 'pensar abans de respondre' — multiplica el consum energètic entre x 10 i x 500 segons el model i la tasca. Els models de raonament consumeixen de mitjana x 30 més que els estàndard. Els agents de codi arriben a 41 Wh per sessió mediana (x 137). El problema: molts models activen el raonament per defecte, fins i tot quan no cal.

Multiplicador energètic: reasoning vs. resposta ràpida (base = 0,3 Wh)

Gemini 2.5 Flash-Lite (consulta ràpida)

0,17 x

Claude Sonnet 4.6 (sense thinking)

1,5 x

Claude Sonnet 4.6 (adaptive/high)

15 x

GPT-5 (mitjana, estimació URI)

63 x

DeepSeek-R1 (llarga, mesurada)

112 x

o3 (llarga, mesurada)

131 x

Claude Code (sessió mediana)

137 x

Phi-4-reasoning-plus (màxim mesurat)

514 x

x 131

Multiplicador d'o3 reasoning llarg (mesurat)

x 30

Mitjana de models de raonament vs. estàndard (HF)

41 Wh

Sessió mediana de Claude Code (mesurada)

70 %

Tokens malbaratats en agents de codi

39,2 Wh. Això és el que consumeix una consulta llarga amb raonament al model o3 d’OpenAI — mesura directa, confiança alta. És x131 més que una consulta simple de text (0,3 Wh). La mateixa energia que carregar el teu smartphone gairebé tres vegades.

I o3 no és el cas extrem. El AI Energy Score v2 de Hugging Face va trobar que els models de raonament consumeixen de mitjana x30 més que els estàndard. Alguns arriben a x700.

La diferència entre preguntar alguna cosa a una IA i demanar-li que pensi no és incremental. És d’ordres de magnitud.


Què és el raonament i per què costa tant

Des de 2024, els principals models d’IA incorporen un mode de “raonament” o “thinking”: en lloc de respondre immediatament, el model genera una cadena interna de pensament — de vegades milers de tokens invisibles — abans de produir la resposta final.

Aquest procés és computacionalment molt car perquè:

  • Genera tokens ocults: El model pot produir 10-100 vegades més tokens interns dels que mostra a l’usuari. Cada token consumeix energia encara que mai el vegis.
  • Activa capes addicionals: Els models de raonament solen activar més paràmetres, més capes d’atenció i més cicles de verificació interna.
  • Escala amb la complexitat: A diferència d’una resposta ràpida (cost relativament fix), el raonament escala amb la dificultat del problema. Una pregunta complexa pot generar 10 minuts de “pensament” intern.

Dauner i Socher van documentar que els models de raonament emeten fins a x50 més CO₂ que els models concisos, amb un cas de 37.575 tokens per a una sola resposta.


Les dades: model per model

El AI Energy Score v2 de Hugging Face (desembre 2025), basat en mesures directes en maquinari H100, proporciona les dades més sòlides:

ModelSense raonamentAmb raonamentMultiplicador
DeepSeek-R1-Distill-Llama-70B0,050 Wh7,63 Whx154
Phi-4-reasoning-plus0,018 Wh9,46 Whx514

Són mesures reals, no estimacions. I confirmen que el raonament no és un cost marginal — és un canvi d’escala.

Les estimacions calibrades per als models comercials tancats mostren el mateix patró:

ModelSense raonamentAmb raonament
GPT-50,4-1,0 Wh8-45 Wh
GPT-5.40,5-1,2 Wh4-18 Wh
Claude Sonnet 4.60,25-0,6 Wh1,5-8 Wh
Claude Opus 4.60,6-1,5 Wh5-20 Wh
Gemini 2.5 Pro0,25-0,6 Wh2-12 Wh
Gemini 2.5 Flash0,12-0,25 Wh0,6-2,5 Wh
DeepSeek-V3.20,08-0,18 Wh1,5-8 Wh

Gemini 2.5 Flash-Lite és l’excepció notable: fins i tot amb thinking actiu, es manté en 0,2-0,8 Wh — demostrant que el raonament eficient és possible.

El raonament no és gratuït. És un multiplicador de cost que va de x10 a x500 segons el model. Cada vegada que actives “thinking” estàs triant — conscientment o inconscientment — consumir un ordre de magnitud més d’energia.


Agents de codi: el raonament en bucle

Si el raonament puntual ja és car, els agents de codi porten aquest cost a l’extrem: apliquen raonament de forma iterativa, en bucles que poden durar desenes de minuts, llegint fitxers, executant comandes, verificant resultats i tornant a començar.

Simon P. Couch va mesurar el gener de 2026 el consum real de Claude Code en sessions de programació:

  • Sessió mediana: 592.439 tokens en 24 intercanvis interactius
  • Consum per sessió: 41 Whx137 la referència base
  • Ús intensiu diari (2-3 instàncies simultànies): ~1.300 Wh — l’equivalent a un cicle de rentaplats

Els altres agents operen en rangs similars:

  • Claude Code + Opus 4.6: 45-70 Wh per sessió (x150-x233)
  • GPT-5.3-Codex: 12-40 Wh per tasca (x40-x133)
  • Devin 2.0: 10-60 Wh per tasca autònoma (x33-x200)
  • Cursor AI: 5-25 Wh per sessió intensa (x17-x83)
  • GitHub Copilot Agent: 3-15 Wh per flux PR (x10-x50)
  • Aider: 2-9 Wh per tasca (x7-x30)

El problema dels tokens malbaratats

Morph va publicar l’abril de 2026 una anàlisi reveladora: el 70% dels tokens consumits per agents de codi són malbaratament:

  • 35-45% en lectura de fitxers
  • 15-25% en sortida d’eines
  • 15-20% en reenviament de context
  • 10-15% en raonament intern
  • Només el 5-15% genera codi real

Un fix d’un sol caràcter va consumir més de 21.000 tokens d’entrada. Claude Code usa x4,2 més tokens que Aider per a tasques idèntiques (479.000 vs ~105.000).


Deep Research: la consulta que substitueix un analista

Els sistemes de Deep Research representen l’extrem del raonament: una sola pregunta dispara desenes de cerques web, lectura de pàgines, execució de codi i síntesi iterativa. El resultat és un informe d’investigació — i el cost energètic ho reflecteix.

SistemaEnergia per informeMultiplicador
OpenAI DR (o3)35-120 Whx117-x400
Gemini Deep Research20-80 Whx67-x267
Claude Research20-70 Whx67-x233
Perplexity Deep Research15-60 Whx50-x200
OpenAI DR (o4-mini)8-25 Whx27-x83
Grok DeepSearch8-30 Whx27-x100

Simon Willison va documentar una sessió de Deep Research amb o4-mini: 60.506 tokens d’entrada, 22.883 de sortida (el 89% eren tokens de raonament intern), 77 crides a eines (45 cerques + 24 visites a pàgines + 12 execucions de codi). Cost: ~$1,10.

Un exemple de Perplexity: 7 tokens d’entrada de l’usuari, 3.847 de sortida, però 308.156 tokens de raonament invisible. El raonament va representar entre el 54% i el 78% del cost total.


El problema del “thinking per defecte”

Aquí és on hi ha el risc real: diversos models activen el raonament per defecte, fins i tot per a preguntes que no ho necessiten.

  • Claude Sonnet 4.6 té el mode “adaptive thinking” activat per defecte. Una consulta simple que es podria resoldre en 0,3 Wh es processa amb raonament innecessari, consumint 1,5-8 Wh.
  • GPT-5 usa un router que barreja resposta ràpida i raonament segons el seu criteri — no el de l’usuari.
  • Claude Opus 4.6 opera per defecte en mode thinking, tot i que se li redueixi el preu: reduir el preu no equival a reduir el consum energètic.

És com si un cotxe tingués el turbo activat permanentment, fins i tot per anar a comprar el pa.

El mode de raonament hauria de ser opt-in, no opt-out. Activar-lo per defecte per a totes les consultes és un malbaratament energètic sistemàtic a escala de centenars de milions d’usuaris.


La taula de multiplicadors definitiva

Per posar-ho tot en perspectiva, aquesta és l’escala completa des de la consulta més lleugera fins a la més pesada:

AccióEnergiaMultiplicador
Gemini 2.5 Flash-Lite (consulta ràpida)0,05 Whx0,17
Consulta simple de text (referència)0,3 Whx1
Claude Sonnet 4.6 (adaptive/high)1,5-8 Whx5-x27
Gemini 2.5 Pro (thinking)2-12 Whx7-x40
GPT-5 (mitjana, estimació URI)18,9 Whx63
DeepSeek-R1 (llarga, mesura directa)33,6 Whx112
o3 (llarga, mesura directa)39,2 Whx131
Claude Code (sessió mediana, mesurada)41 Whx137
Deep Research o3 (informe complet)35-120 Whx117-x400
Sora 2 (clip 10s, abans del tancament)90-936 Whx300-x3.120

De la consulta més lleugera a la més pesada hi ha un factor de x18.000. No són variacions — són mons de consum completament diferents disfressats sota el mateix interfície de xat.


Què puc fer jo?

  • Si ets usuari: Desactiva el mode de raonament quan no el necessitis. La majoria de consultes quotidianes — redacció, cerques, resums, traduccions — es resolen millor i més ràpidament sense thinking. Reserva el raonament per a problemes que realment ho requereixin: anàlisis complexes, codi difícil, investigació profunda.

  • Si dirigeixes un equip tècnic: Estableix una política de cascada de models: Flash-Lite/mini per a tasques rutinàries, model estàndard per a tasques generals, raonament només quan hi ha un ROI clar. Pot reduir el consum del teu equip en un 80-90% sense afectar la qualitat del resultat.

  • Si ets desenvolupador: Desactiva el thinking per defecte en les teves integracions. Usa thinking: "off" o equivalent com a default i activa’l només quan la tasca ho justifiqui. Implementa pressupostos de tokens de raonament. I considera agents més lleugers com Aider (x4 menys tokens que Claude Code per a tasques equivalents).

  • Si treballes en regulació: El raonament activat per defecte és un cas clar de consum energètic innecessari a escala massiva. Una normativa que exigís als proveïdors oferir el mode eficient com a opció per defecte — com el mode ECO dels electrodomèstics — tindria un impacte mesurable en el consum global d’IA.

Fonts

Relacionats

Continuar explorant AISHA

Següent pas

Calcula l'impacte aproximat de l'ús que fas de la IA.

La nostra calculadora t'ajuda a contextualitzar consultes, imatges, raonament i agents.

Obrir calculadora