Prezzi e piani7 minAggiornato: 2026-06-25

Quanto costa GLM-5.2: chat, API Z.ai e OpenRouter

La chat è il primo test, ma i prezzi per token contano quando passi ad API e workflow developer

GLM-5.2 può essere provato prima in chat su Z.ai, come alternativa pratica a Claude o ChatGPT. I prezzi per token diventano importanti quando lo usi via API, OpenRouter o coding agent. Al 25 giugno 2026 Z.ai indica $1,40 input, $0,26 cached input e $4,40 output per 1M token. OpenRouter mostra $0,95 input e $3 output per 1M token. Il costo finale dipende da contesto, output, retry e cache.

Risposta breve

Se usi GLM-5.2 in chat, controlla limiti e piano dentro Z.ai. Se lo usi via API, al 25 giugno 2026 Z.ai indica $1,40 input, $0,26 cached input e $4,40 output per 1M token. OpenRouter indica $0,95 input e $3 output per 1M token.

Per sostituire Claude o ChatGPT, prova prima la chat Z.ai: è il confronto più semplice per uso quotidiano.
Per 50K input e 85K output, Z.ai costa circa $0,44; Opus 4.8 sarebbe circa $2,38 ai prezzi API consultati.
OpenRouter può risultare più economico sul listino esposto, ma aggiunge un gateway e va valutato su provider, policy e routing.
Il contesto da 1M token è utile solo se invii contesto selezionato: più token non significa automaticamente meno costo.
Il cached input è il punto da guardare se riusi spesso la stessa codebase o documentazione.

Confronto rapido

Criterio	Costo dichiarato	Lettura pratica
Chat Z.ai	Accesso da browser, con limiti e piano da verificare nell'account Z.ai.	È il primo confronto da fare se vuoi capire se può sostituire Claude o ChatGPT nel tuo uso quotidiano.
Z.ai input	$1,40 per 1M token input.	Competitivo per inviare repository, documentazione e contesto lungo, ma solo se lo scope è pulito.
Z.ai cached input	$0,26 per 1M token cached input, con storage cached indicato come gratis per periodo limitato.	Interessante per task ripetuti sulla stessa codebase o sulla stessa base documentale.
Z.ai output	$4,40 per 1M token output.	Il costo output pesa nei refactor lunghi, nei report tecnici e nei retry agentici.
OpenRouter	$0,95 input e $3 output per 1M token nella scheda GLM 5.2 consultata.	Comodo per test e confronto modelli, ma devi considerare gateway, provider finale e policy dati.
Claude Opus 4.8	$5 input e $25 output per 1M token nella pagina Anthropic consultata.	Resta un riferimento premium, ma può costare molto di più su task con output lungo.

Esempi di costo

Le stime sotto usano i prezzi pubblicati il 25 giugno 2026. Sono esempi per ragionare, non preventivi: il costo reale cambia con caching, retry, tool call, provider finale, rounding e policy del gateway.

Uso quotidiano in chat

Prompt e documenti caricati nella chat Z.ai · Risposte per studio, scrittura, analisi e codice leggero

Scenario

Prezzo non espresso in token API

Stima e rischio

Verifica limiti e piano Z.ai

Per sostituire un abbonamento Claude o ChatGPT, il primo criterio non è il prezzo API: è capire se la chat regge i tuoi task reali.

Patch medio-lunga

50K input · 85K output

Scenario

Z.ai circa $0,44

Stima e rischio

Opus 4.8 circa $2,38

È il caso citato spesso nei workflow agentici: la differenza diventa visibile quando l'output cresce.

Audit repository

500K input · 50K output

Scenario

Z.ai circa $0,92

Stima e rischio

Z.ai con input cached circa $0,35

Se riusi lo stesso contesto, il cached input può cambiare molto la convenienza del modello.

Task breve

100K input · 20K output

Scenario

Z.ai circa $0,23

Stima e rischio

OpenRouter circa $0,16

Su task piccoli la differenza assoluta è bassa: conta più il tempo di setup e review.

Sessione mal delimitata

Molti file non necessari · Piani, retry e patch scartate

Scenario

Variabile

Stima e rischio

Sale anche con un modello economico

Il modello economico non salva un workflow confuso. Scope, file e test contano più del prezzo nominale.

Prima domanda: chat o API?

Se vuoi usare GLM-5.2 al posto di Claude o ChatGPT, parti dalla chat Z.ai. In quel caso non devi ragionare subito in token API: devi controllare qualità, limiti dell'account, privacy e continuità d'uso. Il prezzo per token serve quando colleghi il modello a script, prodotti, agenti o gateway come OpenRouter.

Chat: scelta giusta per provare scrittura, studio, sintesi, brainstorming e codice leggero.
API: scelta giusta per automazioni, prodotti, backend, agenti e misurazione precisa dei costi.
OpenRouter: scelta utile se vuoi confrontare più modelli con una sola integrazione.
Locale: scelta avanzata, da valutare solo dopo un uso cloud convincente.

Prezzo ufficiale Z.ai

La pagina pricing Z.ai indica i prezzi dei modelli per 1M token. Per GLM-5.2, al 25 giugno 2026, il listino riporta $1,40 per input, $0,26 per cached input, cached input storage gratis per periodo limitato e $4,40 per output. È il riferimento più diretto se vuoi chiamare il modello dalla piattaforma Z.ai.

Input: prompt, codice, documenti e contesto inviati al modello.
Cached input: contesto riusato quando il provider può applicare caching.
Output: patch, spiegazioni, piani, report e risposte generate.
Storage cached: voce da ricontrollare perché indicata come offerta a tempo limitato.

Prezzo su OpenRouter

OpenRouter espone GLM 5.2 con una scheda modello dedicata. Al 25 giugno 2026 mostra $0,95 per 1M token input e $3 per 1M token output, con contesto 1M. È interessante per test rapidi e confronto tra modelli, ma non è identico a usare Z.ai direttamente: aggiunge un gateway, provider routing e policy da leggere.

È comodo se vuoi provare GLM insieme ad altri modelli nello stesso account.
È utile se vuoi cambiare provider o fallback senza riscrivere subito l'integrazione.
Va verificato su privacy, logging, provider finale e condizioni del gateway.
Per produzione, confronta costo per task riuscito, non solo listino token.

Perché il costo output conta

Nei coding agent il costo output pesa più di quanto sembri. Un task può produrre piano, ragionamento, patch, test, spiegazione, retry e report finale. Se il modello genera molto testo o prova più volte, il prezzo output diventa una parte importante del costo finale.

Chiedi piani brevi prima della patch.
Evita report lunghi se ti basta una checklist di verifica.
Imposta stop e criteri di successo.
Se il task fallisce due volte, riduci lo scope prima di continuare.

Quando GLM-5.2 conviene

GLM-5.2 conviene quando ti serve un modello lungo e abbastanza economico per lavorare su contesto ampio. Il caso ideale è un task tecnico con input grande, output utile, verifica chiara e possibilità di riusare contesto. Se il risultato evita ore di lavoro umano o molti token premium, il vantaggio può essere concreto.

Audit di repository o documentazione tecnica.
Refactor multi-file con test già definiti.
Migrazione API o SDK adaptation.
Task ripetuti sulla stessa codebase, dove il caching può aiutare.
Esecuzione dopo un piano creato o revisionato da un modello premium.

Quando il prezzo può ingannare

Un listino basso non basta se il modello richiede più tentativi, produce patch da correggere o non capisce bene il contesto che gli mandi. Il costo giusto da misurare è il costo per task riuscito: token, tempo umano di review, qualità della patch, test passati e rischio introdotto.

Se non hai test, non sai se il risparmio è reale.
Se mandi tutto il repository senza selezione, paghi contesto inutile.
Se il task richiede visione o UI da screenshot, serve un modello aggiuntivo.
Se lavori su dati sensibili, costo e privacy vanno valutati insieme.

Metodo per stimare il budget

Prima di usare GLM-5.2 su un task lungo, fai una stima semplice. Valuta quanti token entrano, quanto output ti aspetti, quante volte potresti fare retry e se il contesto può essere cached. Poi confronta la spesa con il modello che useresti davvero come alternativa.

Stima input: file, prompt, documenti, log e regole del repository.
Stima output: piano, patch, spiegazione e report.
Aggiungi margine per uno o due retry.
Confronta con Opus, GPT, Kimi o il modello premium che usi oggi.
Decidi una soglia massima prima di avviare sessioni lunghe.

Domande frequenti

GLM-5.2 costa meno di Claude o ChatGPT in chat?

Non va deciso solo dal listino API. Per la chat Z.ai devi verificare limiti e piano disponibili nel tuo account. Il confronto pratico è: riesce a coprire gli stessi task per cui oggi paghi Claude o ChatGPT? Se sì, può diventare un'alternativa da valutare.

GLM-5.2 è gratuito?

Non per l'API GLM-5.2 consultata il 25 giugno 2026. Z.ai indica modelli Flash gratuiti nella tabella pricing, ma GLM-5.2 ha prezzi per input, cached input e output. Per la chat, controlla limiti e piano direttamente nell'account Z.ai.

Costa meno usare GLM-5.2 su Z.ai o OpenRouter?

Il listino OpenRouter consultato mostra prezzi più bassi per input e output, mentre Z.ai è la fonte diretta ufficiale. La scelta non va fatta solo sul prezzo: considera gateway, provider finale, privacy, routing, supporto e semplicità operativa.

Quanto costa un task da 50K input e 85K output?

Con i prezzi Z.ai consultati il 25 giugno 2026, circa $0,44. Con Opus 4.8 ai prezzi API Anthropic consultati, circa $2,38. Sono stime semplici: non includono retry, caching, rounding o altri costi.

Il context window da 1M token rende GLM-5.2 più economico?

Non automaticamente. Un contesto grande ti permette di inviare più materiale, ma se mandi file inutili paghi di più. Diventa conveniente quando selezioni bene il contesto o puoi riusarlo con caching.

Quando conviene pagare un modello premium invece di GLM-5.2?

Conviene quando il task è critico, richiede massima affidabilità, visione, supporto enterprise o una policy dati già approvata. GLM-5.2 è più interessante come modello economico per task lunghi e verificabili.