Immagina di leggere una frase in italiano: "Il gatto ha visto il topo e ha iniziato a correre". Per capirla, il tuo cervello non legge parola per parola in isolamento. Capisce che "il gatto" è il soggetto, che "correre" dipende da ciò che è accaduto prima, che la parola "ha" lega azioni a tempi diversi. Un transformer fa esattamente questo per le macchine. È un'architettura di rete neurale che impara a dare peso diverso a parti diverse di una frase. Non è magia. È matematica molto complessa, ma il concetto è questo: ogni parola "guarda" tutte le altre parole e capisce quale è importante per il significato.

La parola transformer in sé significa trasformatore. E il nome è preciso. Prende in ingresso una sequenza di parole, le trasforma attraverso strati successivi di elaborazione, e produce in uscita un'altra sequenza. Ma non è una trasformazione passiva. Ogni strato impara quali connessioni tra le parole importano davvero.

Come funziona il meccanismo di attenzione

Il vero motore di un transformer si chiama attenzione. Nel 2017, quando i ricercatori di Google pubblicarono il paper intitolato "Attention is All You Need", descrissero un metodo nuovo per farsi processare il testo. L'idea centrale è questa: non tutte le parole hanno lo stesso peso in una frase.

Prendi la frase "Il banca del fiume scorre veloce". La parola "banca" qui non significa istituto finanziario. Significa sponda. Il transformer, durante l'addestramento, impara a dare più attenzione alle parole "del" e "fiume" quando interpreta "banca". L'attenzione è come uno spotlight che illumina le relazioni che contano.

Questo meccanismo si chiama self-attention, perché ogni elemento di una sequenza guarda gli altri elementi della stessa sequenza. Avviene in parallelo, non sequenzialmente. Questo rende i transformer incredibilmente efficienti: mentre i vecchi modelli potevano processare solo parola dopo parola, un transformer processa una frase intera contemporaneamente. Quindi, è più veloce e più accurato.

Perché i grandi modelli sono costruiti con i transformer

ChatGPT, Gemini, Claude, Grok: dietro ogni grande modello di linguaggio c'è un transformer. Non per caso. Perché i transformer hanno risolto un problema che nessun'altra architettura aveva risolto bene: capire il contesto su lunghe distanze.

I modelli precedenti, come gli RNN e gli LSTM, facevano fatica a ricordare le informazioni che avevano visto molte parole fa. Immagina una storia di mille parole: un modello vecchio potrebbe dimenticare i dettagli della prima frase quando arriva all'ultima. Un transformer no. Mantiene la capacità di connettere elementi lontani.

Un secondo motivo: scalabilità. I transformer crescono bene. Più dati dai in pasto durante l'addestramento, più il modello migliora. Non è un soffitto, è una rampa. Questo ha permesso ai ricercatori di addestrare modelli sempre più grandi su sempre più dati. ChatGPT ha 175 miliardi di parametri nella versione GPT-3 e ancora di più nelle versioni successive. Un transformer reggeva questo peso.

Terzo motivo: trasferimento tra compiti. Un transformer addestrato per una cosa può adattarsi facilmente a un'altra. Se lo addestri a tradurre, impara pattern linguistici che servono anche per il riassunto o la generazione di testo. Questo è il motivo per cui uno stesso modello può fare cento cose diverse senza essere riaddestrare da zero.

La struttura interna: encoder e decoder

Un transformer classico ha due parti: encoder e decoder. L'encoder prende il testo in ingresso e lo processa, strato dopo strato, imparando a rappresentarlo in modo astratto. Il decoder prende questa rappresentazione e genera il testo di uscita, parola per parola.

Molti dei moderni transformer sono basati solo sul decoder. ChatGPT è così. Significa che non ha una fase separata di "comprensione" e "generazione". Ha un'unica passata che genera il risultato direttamente. È più semplice, ma ugualmente potente, perché il modello impara comunque tutti i pattern che servono.

Ogni strato, dentro encoder o decoder, contiene tre componenti principali: il meccanismo di attenzione, una rete neurale feedforward, e la normalizzazione. Questo schema si ripete decine di volte. Per GPT-4 si parla di circa 120 strati. È profondità, e la profondità è capacità.

Cosa rende i transformer superiori

Il grande salto è stato il parallelismo. Le reti neurali ricorrenti, che dominavano prima del 2017, dovevano processare una parola alla volta. Era come leggere in fila. I transformer processano tutto insieme. È come avere mille persone che leggono la frase contemporaneamente e discutono quale parte è importante.

Secondo punto: la lunghezza del contesto. Negli ultimi anni, i ricercatori hanno esteso i transformer per gestire sequenze sempre più lunghe. Ora ci sono modelli che ricordano fino a 200.000 token, quasi un libro intero. Un token è grosso modo una parola o una frazione di parola. Questo significa che un modello moderno può leggere un documento intero e rispondere a domande su tutto ciò che contiene.

Terzo punto: l'emergenza di capacità non previste. Man mano che i transformer diventano più grandi, emergono abilità che non erano state insegnate direttamente. Un modello che impara solo a prevedere la parola successiva, a un certo punto, improvvisamente sa risolvere equazioni, scrivere codice, fare ragionamento logico. Gli effetti a cascata della scala sono ancora parzialmente misteriosi anche ai ricercatori stessi.

Il limite: e dopo

I transformer non sono perfetti. Hanno bias, possono allucinare informazioni false, non ragionano come un umano anche se a volte sembrano. Costano moltissimo in termini computazionali per l'addestramento. E hanno un orizzonte: la lunghezza massima di input che possono gestire. Ci sono sempre limiti.

Ma per il linguaggio naturale, nel 2024, non c'è alternativa provata che funziona meglio. Gli ultimi esperimenti parlano di architetture ibride, o di nuovi modelli che mixano transformer con altri meccanismi. Ma il core rimane un transformer.

Quando accendi ChatGPT e scrivi una domanda, dall'altra parte c'è un transformer che legge il tuo testo, uno strato dopo l'altro, pesando ogni parola della tua domanda rispetto a tutte le altre, generando la risposta con lo stesso sistema. Miliardi di moltiplicazioni, migliaia di parametri, il tutto in secondi. È veloce, e funziona. Per questo il transformer è diventato l'architettura che alimenta l'intelligenza artificiale moderna.