Salta al contenuto principale
Modelli AI8 minAggiornato: 2026-06-10

Fable 5 vs GPT, Gemini e altri modelli frontier: cosa dicono davvero i benchmark

Numeri, grafici e limiti da leggere prima di scegliere il modello

I benchmark raccontano una storia abbastanza chiara: Fable 5 è molto forte su coding agentico, knowledge work e task lunghi, ma paga questa forza con prezzo alto e velocità non da primo posto. La scelta non è Fable contro tutti: è capire quando il suo margine giustifica costo, fallback e complessità.

Risposta breve

Fable 5 sembra il modello da battere quando il lavoro assomiglia a un progetto lungo: coding agentico, uso di strumenti, documenti complessi, ragionamento spaziale o knowledge work. Nei grafici disponibili batte Opus 4.8, GPT-5.5 e Gemini 3.1 Pro su diversi benchmark, ma non è il modello più veloce né il più economico.

  • Artificial Analysis lo presenta come modello ad alta intelligence, ma con prezzo blended alto: 8,2 dollari per 1M token contro 4,3 di GPT-5.5 thinking e 1,7 di Gemini 3.1 Pro Preview.
  • La tabella Anthropic mostra vantaggi forti su SWE-Bench Pro, FrontierCode, GDPval-AA, Blueprint-Bench 2, Terminal-Bench 2.1, cybersecurity e health.
  • Il confronto va letto per dominio: Fable vince spesso sui task agentici, ma GPT, Gemini o Opus possono restare più sensati per costo, ecosistema, velocità o disponibilità.

Grafici e benchmark citati

Tabella Anthropic con benchmark di Claude Fable 5, Claude Opus 4.8, GPT-5.5 e Gemini 3.1 Pro
Anthropic: tabella benchmark per dominio. La tabella ufficiale mostra il vantaggio di Fable 5 in molti domini, ma va letta come fonte del provider: è utile, non neutrale. Fonte: Anthropic.
Grafico Anthropic FrontierCode con accuracy e costo per task di Claude Fable 5, Opus 4.8 e GPT-5.5
FrontierCode: accuratezza contro costo. Il grafico chiarisce il punto economico: Fable 5 sale molto in accuratezza sui livelli di effort più alti, ma anche il costo medio per task cresce. Fonte: Anthropic.
Grafici Anthropic sul coding agentico con SWE-Bench Pro e FrontierCode per Claude Fable 5, Opus 4.8 e GPT-5.5
Agentic coding: SWE-Bench Pro e FrontierCode. Questa figura rende immediata la tesi principale dell'articolo: il vantaggio più leggibile di Fable 5 è sui task di coding agentico difficili, non su ogni uso generico. Fonte: Anthropic.

Confronto rapido

CriterioDato o fonteLettura pratica
SWE-Bench ProFable 5 80,3%, Opus 4.8 69,2%, GPT-5.5 58,6%, Gemini 3.1 Pro 54,2%È il segnale più diretto sul coding agentico: Fable ha un margine largo, ma il risultato è nella tabella ufficiale Anthropic.
FrontierCode DiamondFable 5 29,3%, Opus 4.8 13,4%, GPT-5.5 5,7%. Gemini non è riportato nella tabellaQui emerge il vantaggio sui task coding più duri. Il grafico accuracy/cost però mostra che il vantaggio arriva pagando più effort e più costo.
GDPval-AAFable 5 1932, Opus 4.8 1890, GPT-5.5 1769, Gemini 3.1 Pro 1314È il numero più chiaro sul knowledge work. Artificial Analysis conferma il primato di Fable, con una nota importante sui fallback.
Blueprint-Bench 2Fable 5 38,6%, Opus 4.8 14,5%, GPT-5.5 36,2%, Gemini 3.1 Pro 26,5%Il vantaggio non è solo coding: Fable risulta forte anche su ragionamento spaziale e compiti con struttura visiva.
Terminal-Bench 2.1Fable 5 88,0%, Opus 4.8 82,7%, GPT-5.5 con Codex CLI 83,4%, Gemini CLI 70,7%Per agenti che usano terminale e strumenti, Fable è davanti nella tabella Anthropic, ma GPT con Codex CLI resta vicino.
Artificial Analysis highlightsIntelligence 65, speed 60 token/s, price blended 8,2 dollari per 1M token nella homepage Artificial AnalysisQuesta è la sintesi più utile: Fable sembra premium e costoso, non un modello da usare automaticamente per ogni prompt.

Numeri da guardare

Questi numeri non sono una classifica universale. Servono a capire quale fonte misura knowledge work, coding agentico, preferenza umana o costo operativo.

Intelligence

Fonte: Artificial Analysis · Indice proprietario

Numero

65

Cosa significa

#1 nel grafico

Il vantaggio di Fable è soprattutto nella capacità complessiva su task difficili, non nella comodità o nel prezzo.

Speed

Fonte: Artificial Analysis · Output token/s

Numero

60

Cosa significa

Molto sotto i leader

Fable non sembra il modello da scegliere se il criterio principale è la velocità di risposta.

Prezzo

Fonte: Artificial Analysis · USD per 1M token blended

Numero

$8,2

Cosa significa

Più caro nel grafico

Il benchmark va letto insieme al costo: se il task non richiede quel margine, GPT, Gemini o Opus possono essere scelte più razionali.

La storia che raccontano i grafici

La lettura più chiara è visiva: Artificial Analysis mostra Fable 5 come modello molto alto per intelligence, ma non come campione di velocità o prezzo. Anthropic invece spinge la narrativa dei task difficili: coding agentico, knowledge work, tool use, terminale, sicurezza e salute. Quindi il titolo non va letto come una gara unica, ma come confronto tra profili.

  • Artificial Analysis: intelligence 65, speed 60 token/s, price blended 8,2 dollari per 1M token nella homepage.
  • Anthropic: Fable 5 supera Opus 4.8, GPT-5.5 e Gemini 3.1 Pro in molti benchmark della tabella ufficiale.
  • La parte più convincente è il lavoro agentico: SWE-Bench Pro 80,3%, FrontierCode Diamond 29,3%, Terminal-Bench 2.1 88,0%.
  • La parte da non ignorare è il costo: il vantaggio aumenta soprattutto quando si accetta più effort e più spesa per task.

Dove Fable sembra davvero avanti

I numeri più coerenti con il posizionamento di Fable sono quelli in cui il modello deve usare strumenti, mantenere contesto, risolvere task lunghi o produrre lavoro verificabile. In questi casi il vantaggio non è solo risposta più bella: è maggiore probabilità di chiudere un task complesso.

  • Coding agentico: 80,3% su SWE-Bench Pro contro 69,2% di Opus 4.8 e 58,6% di GPT-5.5.
  • Coding duro: 29,3% su FrontierCode Diamond contro 13,4% di Opus 4.8 e 5,7% di GPT-5.5.
  • Knowledge work: 1932 su GDPval-AA contro 1890 di Opus 4.8, 1769 di GPT-5.5 e 1314 di Gemini 3.1 Pro.
  • Terminale e agenti: 88,0% su Terminal-Bench 2.1, con GPT-5.5 via Codex CLI vicino all'83,4%.

Dove la classifica può ingannare

Il rischio è trasformare una tabella ufficiale in una risposta assoluta. Non tutti i benchmark misurano la stessa cosa: alcuni misurano modello puro, altri un agente con strumenti, altri ancora un workflow con CLI o livelli di effort diversi. Quando cambia il setup, cambia anche la decisione pratica.

  • Controlla se il benchmark misura il modello puro o un agente completo.
  • Guarda se il risultato usa CLI, tool esterni, retry, livelli di effort o fallback di sicurezza.
  • Se il costo per task non è dichiarato, il benchmark dice solo metà della storia.
  • Dai più peso ai test che assomigliano al tuo lavoro reale: repo, documenti, terminale, visione o workflow aziendale.

Come scegliere tra Fable, GPT e Gemini

La decisione pratica dovrebbe partire dal workflow, non dal nome del modello. Se lavori in ChatGPT, Codex e strumenti OpenAI, GPT può vincere anche con uno score simile. Se vivi in Workspace, AI Studio, NotebookLM e Antigravity, Gemini può essere più naturale. Se devi delegare lavoro lungo e critico con forte controllo qualitativo, Fable 5 diventa più interessante.

  • Scegli Fable 5 per task lunghi, agentici, difficili da supervisionare e ad alto valore.
  • Scegli GPT quando contano ecosistema ChatGPT, Codex, API OpenAI e integrazione con workflow già esistenti.
  • Scegli Gemini quando servono Google Workspace, AI Studio, Antigravity, multimodalità e prodotti Google.
  • Scegli un modello meno costoso quando il task è breve, ripetitivo o facile da verificare.

La checklist anti-hype

Prima di usare un benchmark per giustificare una scelta, chiediti che cosa misura davvero e cosa manca. Un modello può essere primo su un test e non essere la scelta più economica, disponibile o affidabile per il tuo caso.

  • Il benchmark misura il dominio che mi interessa?
  • Il test usa strumenti, browsing, codice eseguito o solo risposta testuale?
  • Il risultato è single attempt o permette retry?
  • Il costo per ottenere quel risultato è dichiarato?
  • Il modello è disponibile nel piano o nella regione che posso usare?
  • Ci sono fallback, guardrail o limiti che cambiano la performance in produzione?

Domande frequenti

Fable 5 batte GPT e Gemini nei benchmark?

In diversi benchmark ufficiali sì: per esempio SWE-Bench Pro, FrontierCode Diamond, GDPval-AA, Blueprint-Bench 2 e Terminal-Bench 2.1. Questo non significa che sia sempre la scelta migliore: costo, velocità, ecosistema e tipo di task restano decisivi.

Quale benchmark conta di più per scegliere un modello?

Conta quello più simile al tuo lavoro: SWE-Bench o benchmark agentici per coding reale, GPQA e HLE per ragionamento accademico, test multimodali per documenti, immagini e video.

I benchmark ufficiali sono affidabili?

Sono utili, ma vanno letti con cautela. Mostrano il profilo che il provider vuole evidenziare. Meglio incrociarli con leaderboard, paper indipendenti e prove sul proprio workflow.

Quando un benchmark giustifica pagare Fable 5?

Quando il task è lungo, costoso da rifare e simile ai casi in cui Fable mostra vantaggio: agenti, coding complesso, documenti difficili o lavoro con alto costo di errore.