Capire come funziona l'intelligenza artificiale dei modelli linguistici significa seguire sette passaggi che trasformano le parole che scriviamo in una risposta coerente: tokenizzazione, vettori, matrici, attenzione, funzioni non lineari, probabilità e ottimizzazione. Nessuno di questi richiede che il modello "capisca" davvero: il suo pensiero è interamente matematica. Ecco come si concatenano, spiegati senza tecnicismi.

Il punto di partenza è un equivoco diffuso. Tendiamo a interpretare gli LLM — i Large Language Model — con una lente umana, immaginando che ragionino come noi. In realtà non comprendono: prevedono, parola dopo parola, la sequenza più probabile dato il contesto. Sapere come ci arrivano serve sia a usarli meglio sia a non sopravvalutarne l'affidabilità.

1. Token: il linguaggio fatto a pezzi

La macchina non legge le parole come noi. Le spezza in token, frammenti di testo ricorrenti scelti con criteri statistici. La parola "incredibilmente" può diventare "in", "credibil", "mente". Così il modello gestisce neologismi, nomi propri e refusi senza incontrare mai un termine del tutto sconosciuto, e impara la struttura delle parole senza che gliela insegni nessuno.

2. Vettori: dove nasce il significato

Ogni token diventa un vettore, una lunga lista di numeri che ne codifica il senso rispetto a tutti gli altri. Il significato si trasforma in posizione nello spazio: parole vicine come "cane", "gatto" e "criceto" finiscono in zone contigue, mentre concetti lontani restano distanti. Il modello può così misurare quanto due parole siano simili semplicemente confrontando la direzione dei loro vettori.

3. Matrici: il motore delle trasformazioni

Una volta che le parole sono numeri, entrano in gioco le matrici, tabelle che ruotano, comprimono o separano i vettori. Ogni strato della rete applica una trasformazione diversa, come una sequenza di filtri che mettono via via in evidenza relazioni differenti. È nelle matrici che il modello conserva ciò che ha appreso, e si usano perché l'hardware moderno (GPU e TPU) le elabora con enorme efficienza.

4. Attenzione: il contesto che cambia tutto

Non tutte le parole pesano allo stesso modo. Il meccanismo di self-attention, cuore dell'architettura Transformer, calcola per ogni token quanto debba "guardare" agli altri. Nella frase "Ha annaffiato la pianta perché era secca", elaborando "secca" il modello pesa di più "pianta" e "annaffiato", cogliendo il legame anche a distanza. È l'innovazione che ha reso possibili gli LLM attuali.

5. Funzioni non lineari: la complessità

Il linguaggio non segue schemi proporzionali. Le funzioni non lineari introducono soglie che rafforzano alcune informazioni e ne azzerano altre, permettendo di distinguere significati opposti anche quando le parole di partenza sono quasi identiche. Senza di esse, l'intera rete, per quanto profonda, equivarrebbe a una singola operazione elementare.

6. Probabilità: la vera decisione

A questo punto il modello non sa quale sia la risposta "giusta": assegna una probabilità a ogni possibile parola successiva. Una funzione chiamata softmax ordina queste stime in modo che la somma faccia uno, e il modello sceglie tra le più alte. Poi la parola scelta rientra nel contesto e il calcolo riparte. È fondamentale ricordare che questa probabilità misura la coerenza linguistica, non la verità: ecco perché esistono le allucinazioni.

7. Ottimizzazione: come impara

L'apprendimento avviene confrontando l'output con il dato atteso, calcolando l'errore e ridistribuendolo all'indietro per correggere i parametri di pochissimo, milioni di volte. Si chiama gradient descent con backpropagation. Un punto spesso ignorato: tutto questo accade durante l'addestramento, prima del rilascio. Quando chattiamo con un LLM i suoi parametri sono fissi: non impara dalle nostre domande né si aggiorna in tempo reale. In sintesi, il modello non interpreta nulla: trasforma parole in numeri, numeri in geometrie e sceglie ciò che è più probabile.