Ogni volta che esce un nuovo modello AI, succede sempre la stessa cosa: l'azienda pubblica una serie di numeri colorati su grafici e tabelle dimostrando di "battere" tutti i concorrenti. "Nostro modello: 92.3% su MMLU. GPT-5: 89.1%. Vinciamo.". Sigla dopo sigla, percentuale dopo percentuale, i comunicati stampa si riempiono di numeri che pochi capiscono ma che sembrano oggettivi e definitivi.
Quei numeri si chiamano benchmark. Vale la pena capirli, perché senza un minimo di alfabetizzazione è impossibile leggere criticamente le notizie sull'AI.
La definizione semplice
Un benchmark è un test standardizzato. Una serie di domande, problemi o compiti su cui tutti i modelli vengono valutati alle stesse condizioni. Cosi' diventa possibile confrontarli: se Claude prende 87 su un test e ChatGPT 84, quei numeri sono comparabili. Esattamente come i test SAT o le Olimpiadi della Matematica: gli stessi compiti per tutti, voto numerico finale.
I benchmark più famosi
Una rapida panoramica dei benchmark di cui sentirai parlare nel 2026:
MMLU (Massive Multitask Language Understanding) — 16.000 domande a risposta multipla su 57 materie diverse, dal diritto alla biologia molecolare. E' come una "maturita' universale" per AI. Il più citato in assoluto.
HumanEval — 164 problemi di programmazione. L'AI deve scrivere codice che passi i test. Usato per misurare le capacita' di coding.
GSM8K — 8.500 problemi matematici da scuola elementare e media. Sembra facile? È uno dei test su cui i modelli faticano di più.
MATH — problemi matematici da competizioni di alto livello. Difficile davvero.
HellaSwag — completamento di scenari di senso comune. Misura il "buon senso" dell'AI.
Big-Bench Hard — collezione di test scelti per essere difficili per le AI.
Arena Elo — non è un test ma un sistema di voto: utenti reali confrontano due risposte AI cieche e scelgono la migliore. Genera classifiche tipo Chess.
Come si leggono i punteggi
I benchmark si esprimono in percentuale o in score assoluti. Esempio: "MMLU 89%" significa che il modello ha risposto correttamente al 89% delle 16.000 domande. Per riferimento: un umano laureato in genere fa il 70-85% su MMLU. I migliori modelli del 2026 superano il 90%. Da brividi.
Perchè a volte ingannano
Tre motivi che dovresti conoscere:
1) Contamination problem
I modelli AI vengono addestrati su miliardi di pagine di internet. A volte le risposte ai benchmark sono finite, accidentalmente, nei dati di addestramento. Il modello "sa" la risposta non perché ragiona, ma perché l'ha vista in un blog tre anni fa. Le aziende cercano di evitarlo ma è inevitabile su scala enorme.
2) Specializzazione tattica
I produttori di modelli sanno quali benchmark sono "popolari" e ottimizzano i modelli specificamente per quei test. Risultato: il modello è bravissimo sul benchmark e meno bravo nelle situazioni reali, che sono diverse.
3) Benchmark obsoleti
Quando un benchmark è troppo facile per i modelli moderni (es. SQuAD del 2016 è ormai "saturato"), perde di significato. Ma viene ancora citato dalle aziende perché i numeri alti fanno marketing.
I benchmark "veri" che contano
Tre indicatori a cui dare più peso nel 2026:
- Arena Elo — perché è valutazione umana cieca, difficile da imbrogliare
- SWE-Bench — risolvere bug reali in repository GitHub reali, non problemi inventati
- GPQA Diamond — domande scientifiche di dottorato, molto difficili da memorizzare
Cosa significa per te
Quando leggi un comunicato che dice "il nostro modello supera GPT-5 su questi 12 benchmark", prendi quei numeri con cautela. Non perché siano sempre falsi, ma perché non raccontano l'esperienza d'uso reale. Il modello che vince i benchmark non è sempre quello che "ti piace di più" quando lo usi tutti i giorni. Per quella valutazione l'unico benchmark vero sei tu.
