Come risparmiare token AI
Cache, modelli economici e limiti pratici per non bruciare budget
Risparmiare token non significa solo scrivere prompt più corti. Il costo reale dipende da contesto inviato, output generato, retry, modello scelto, cache e strumenti usati dagli agenti. Le leve più efficaci sono: tenere stabile il prefisso del prompt, spostare contenuto variabile alla fine, usare modelli economici per fasi semplici, limitare output e fermare gli agenti con scope e budget chiari.
Risposta breve
Per risparmiare token AI devi ridurre ciò che il modello rilegge, non solo ciò che scrivi. Metti istruzioni e contesto stabile all'inizio per favorire la cache, passa a modelli economici per bozze e classificazioni, limita output e retry, e usa agenti solo con obiettivo, file, test e budget già definiti.
- Prima leva: contesto pulito. Non mandare tutto il repository, tutta la chat o log completi se servono pochi passaggi.
- Seconda leva: prompt caching. Funziona meglio quando il prefisso resta identico e il contenuto variabile arriva dopo.
- Terza leva: routing. Usa modelli leggeri per triage, bozze e trasformazioni semplici; riserva i modelli premium al passaggio critico.
- Quarta leva: stop chiari. Un agente senza criteri di uscita consuma token in esplorazione, retry e spiegazioni inutili.
Confronto rapido
| Criterio | Leva di risparmio | Quando usarla |
|---|---|---|
| Prompt caching | Riduce costo e latenza quando molte richieste condividono istruzioni, tool, esempi o documenti stabili | Applicazioni SaaS, agenti multi-turn, assistenti interni, workflow con system prompt lunghi o documentazione ricorrente |
| Contesto minimo | Taglia input token, migliora il segnale e riduce il rischio che il modello lavori su materiale non pertinente | Coding agent, ricerca su documenti, analisi di log, review di contratti o dataset lunghi |
| Routing tra modelli | Sposta task semplici su modelli economici e usa modelli frontier solo per passaggi ad alto valore | Triage, classificazione, riscrittura semplice, estrazione dati, prima bozza, test e fallback |
| Limite output | Riduce i token più costosi quando il provider fa pagare molto l'output | Report, piani, patch, spiegazioni, varianti creative e risposte generate in batch |
| Batch o flex | Abbassa il costo quando non serve risposta immediata | Elaborazioni asincrone: arricchimento cataloghi, sintesi documenti, valutazioni, generazione massiva |
| Budget per agenti | Evita che retry, tool call e lettura del contesto trasformino un task piccolo in una sessione costosa | Claude Code, Codex, OpenCode, n8n, Make e agenti interni collegati a API LLM |
Esempi di ottimizzazione
Esempi qualitativi basati su pricing token-based. Il totale cambia per provider, modello, input, output, cache, strumenti e modalità batch o priority.
Chat o API con prompt ricorrente
System prompt e tool sempre uguali · Risposte brevi e frequenti
Impatto sul costo
Alto potenziale di risparmio con cache
Rischio se ignorata
Paghi di nuovo contesto stabile se il prefisso cambia
Tieni istruzioni, esempi e tool nella stessa posizione. Sposta timestamp, input utente e dati variabili alla fine.
Coding agent su repo grande
File, test, log e cronologia · Patch, piani e retry
Impatto sul costo
Medio o alto senza scope
Rischio se ignorata
L'agente legge troppo e riprova troppo
Dai file rilevanti, comando di test e criterio di stop. Se fallisce due volte, riduci il task invece di aggiungere contesto.
Analisi documentale
PDF, report o knowledge base · Sintesi e risposte
Impatto sul costo
Basso se riusi il corpus
Rischio se ignorata
Alto se reinvii tutto ogni volta
Usa caching o un workspace orientato alle fonti quando interroghi più volte lo stesso materiale.
Workflow massivo
Migliaia di richieste simili · Output strutturati
Impatto sul costo
Riducibile con batch, flex e modelli piccoli
Rischio se ignorata
Usare il modello premium come default brucia margine
Dividi il workflow: modello economico per normalizzare e classificare, modello premium solo per eccezioni o revisione finale.
Cosa sono i token e perché costano
I token sono le unità di testo, codice o contenuto che un modello elabora in input e produce in output. Nei piani API paghi spesso input, output e talvolta input in cache con tariffe diverse. Negli agenti il consumo cresce perché ogni passaggio può rileggere contesto, usare strumenti, generare piani, fare retry e spiegare cosa ha fatto.
- Input token: prompt, istruzioni, file, documenti, log, tool e cronologia inviati al modello.
- Output token: risposta, patch, piano, spiegazione, JSON, test e risultati generati.
- Cached input: prefissi riusati dal provider a prezzo ridotto o con minore latenza, quando la cache viene colpita.
- Token nascosti: reasoning, tool call, retry e passaggi agentici possono rendere il costo meno intuitivo.
Parti dal contesto, non dal prompt breve
Il consiglio generico di scrivere prompt corti è incompleto. In molti workflow il costo non nasce dalla frase dell'utente, ma da tutto ciò che viene allegato: cronologia, file, documentazione, esempi, schema del database, tool e risultati intermedi. Risparmiare token significa mandare al modello il contesto giusto al momento giusto.
- Rimuovi documenti duplicati, log lunghi, file non coinvolti e cronologie vecchie.
- Riassumi o indicizza materiale stabile invece di reinviarlo a ogni richiesta.
- Se lavori su codice, passa solo file, test e stack trace pertinenti al task.
- Se il modello chiede più contesto, aggiungilo a blocchi e misura se migliora davvero il risultato.
Usa prompt caching quando hai prefissi stabili
Il prompt caching conviene quando molte richieste condividono lo stesso inizio: system prompt, policy, esempi, tool, istruzioni, documenti o parti di una conversazione. OpenAI lo abilita automaticamente sui modelli recenti e dichiara riduzioni importanti su latenza e input cost; Anthropic usa breakpoint espliciti o automatici; Gemini distingue caching implicito ed esplicito.
- Metti contenuti statici all'inizio: istruzioni, schema, esempi, tool e documenti comuni.
- Metti contenuti variabili alla fine: domanda utente, timestamp, dati aggiornati e risultati tool.
- Evita di cambiare ordinamento JSON, tool choice, immagini o piccoli dettagli nel prefisso se vuoi massimizzare cache hit.
- Misura cache_read, cached input o usage metadata del provider: senza misura stai solo sperando che la cache funzioni.
Fai routing tra modelli
Non ogni passaggio merita il modello più potente. Un workflow efficiente usa modelli piccoli o economici per classificare, estrarre, riassumere in bozza e controllare formato. Il modello premium entra quando serve giudizio, ragionamento lungo, coding difficile, sicurezza o revisione finale.
- Modello economico: deduplica, tagging, estrazione campi, boilerplate, riscrittura semplice.
- Modello medio: sintesi, trasformazioni, Q&A con contesto chiaro, debug circoscritto.
- Modello premium: decisioni rischiose, task multi-step, refactor, analisi ambigue, controllo qualità.
- Fallback: se il modello economico fallisce o segnala bassa confidenza, passa solo quel caso al modello migliore.
Limita output e retry
In molti pricing l'output costa più dell'input. Chiedere report lunghi, molte varianti o spiegazioni complete può pesare più del prompt iniziale. Lo stesso vale per i retry: un agente che prova tre soluzioni e poi le spiega tutte può consumare molto più di una richiesta ben delimitata.
- Specifica lunghezza, formato e criteri di esclusione: cosa deve produrre e cosa non deve produrre.
- Chiedi prima una diagnosi breve, poi autorizza la patch o il report completo.
- Fai generare JSON o tabelle solo quando servono davvero al downstream.
- Se una risposta è sbagliata, correggi il vincolo invece di chiedere semplicemente di riprovare.
Usa batch, flex o asincrono quando puoi aspettare
Se il task non richiede una risposta live, non trattarlo come chat interattiva. Le API batch, le modalità flex e le code asincrone possono ridurre il costo o migliorare il rapporto costo-capacità, soprattutto su migliaia di richieste simili.
- Usa batch per arricchire cataloghi, valutare output, generare sintesi o classificare grandi code.
- Usa modalità non priority quando latenza e time to first token non sono critici.
- Separa job massivi da richieste utente live, così non paghi latenza premium dove non serve.
- Mantieni campioni di controllo: il risparmio non deve degradare qualità e conformità.
Imposta budget per gli agenti
Gli agenti sono il punto in cui i token scappano più facilmente. Leggono, pianificano, chiamano strumenti, correggono errori e riprovano. Prima di avviarli, devi decidere quanto possono esplorare, quali file possono leggere, quali test devono eseguire e quando devono fermarsi.
- Scrivi obiettivo, file rilevanti, vincoli, comandi di verifica e definizione di done.
- Chiedi un piano prima dell'esecuzione se il task può toccare molti file o sistemi esterni.
- Limita strumenti e directory quando il costo di esplorazione supera il valore del task.
- Usa checkpoint: analisi, patch, test, revisione. Ogni fase deve avere un motivo per continuare.
- Se il tool supporta spend cap o usage dashboard, configurali prima dei task lunghi.
Checklist pratica
La checklist più utile è semplice: scegli il modello minimo che può risolvere il passaggio, riduci il contesto, stabilizza il prefisso, misura la cache, limita l'output e fermati quando il task supera il valore atteso.
- Sto inviando solo il contesto necessario?
- Il prefisso è stabile abbastanza da colpire la cache?
- Il modello premium serve davvero in questo passaggio?
- Ho limitato formato, lunghezza e numero di varianti?
- Ho un criterio di stop per agenti e retry?
- Sto misurando costo per task, non solo costo per token?
Domande frequenti
Come si risparmiano token con ChatGPT, Claude o Gemini?
Riduci il contesto non pertinente, mantieni stabile l'inizio del prompt per favorire la cache, usa modelli economici per task semplici e limita output e retry. La strategia cambia per provider, ma questi principi restano validi.
Prompt caching vuol dire che la risposta viene riusata?
No. In generale viene riusato il contesto di input o una sua rappresentazione, mentre la risposta viene generata di nuovo. Serve a ridurre costo o latenza del prefill, non a copiare una vecchia risposta.
Conviene sempre usare il modello più economico?
No. Il modello economico conviene quando il task è semplice o facilmente verificabile. Se aumenta errori, retry o supervisione umana, può costare più di un modello migliore usato nel passaggio giusto.
Perché gli agenti consumano tanti token?
Perché un agente non risponde una sola volta: legge contesto, pianifica, usa strumenti, interpreta risultati, corregge errori e produce output intermedi. Ogni ciclo può aggiungere input e output.
Il modo migliore per risparmiare token è scrivere prompt corti?
Scrivere prompt più corti aiuta solo se stai davvero togliendo contenuto inutile. Un prompt breve con un repository enorme allegato resta costoso. Conta di più selezionare contesto, output e modello.
Come misuro se sto risparmiando davvero?
Misura costo per task completato: token input, token output, cache hit, retry, tempo umano e qualità finale. Guardare solo il prezzo per 1M token può portare a scelte sbagliate.