Immagina una rete stradale. Le strade sono gli algoritmi, i semafori sono i parametri. Quando una macchina (i dati) percorre la strada, i semafori decidono se passare dritto, girare a destra o rallentare. Se tutti i semafori sono regolati male, la macchina non raggiunge la destinazione. Se sono calibrati bene, arriva con precisione.

Un modello AI gigante come ChatGPT funziona così. Durante l'addestramento, riceve miliardi di testi e apprende milioni di correlazioni. Ogni correlazione viene memorizzata in un parametro. Un parametro è semplicemente un numero decimale, spesso piccolo, che la rete neurale ha imparato a usare per trasformare un input in un output utile.

Come nascono i parametri durante l'addestramento

Quando OpenAI ha creato GPT-3 (il modello precedente), gli scienziati hanno iniziato con una rete neurale piena di numeri casuali. Quella rete neurale aveva 175 miliardi di parametri, tutti inizialmente randomici, inutili.

Poi hanno fatto leggere al modello centinaia di miliardi di parole tratte da libri, articoli, siti web. Ogni volta che il modello vedeva una sequenza di parole, provava a indovinare la parola successiva. Sbagliava spesso. Ma ogni errore veniva usato per aggiustare leggermente i 175 miliardi di parametri, rendendoli sempre più precisi.

Questo processo è chiamato addestramento. Dura mesi. Usa quantità enormi di energia e server potentissimi. E alla fine, quei miliardi di numeri casuali diventano una mappa complessa delle relazioni tra le parole nel linguaggio umano.

Parametri e capacità di ragionamento

C'è una correlazione netta: più parametri, più il modello può imparare. Un modello con un milione di parametri riconosce pattern semplici. GPT-3 con 175 miliardi riconosce pattern sofisticati, sa fare traduzioni, scrivere codice, riassumere testi complessi.

Ma non è lineare. Raddoppiare i parametri non raddoppia la capacità. Spesso il miglioramento è logaritmico. Inoltre, il modo in cui i parametri sono organizzati conta più del numero puro. Una rete neurale ben disegnata con 50 miliardi di parametri potrebbe essere più intelligente di una male organizzata con 200 miliardi.

I ricercatori hanno scoperto anche che non basta avere tanti parametri. Devi avere tanti dati di qualità per insegnare al modello. Se addestri GPT con solo un milione di parole, non impara nulla di utile, indipendentemente da quanti parametri abbia a disposizione.

Che differenza fanno nella pratica

Quando usi ChatGPT e gli chiedi di scrivere una poesia su Roma, cosa succede. La tua domanda viene trasformata in numeri. Quella sequenza di numeri passa attraverso tutti gli strati della rete neurale. In ogni strato, i parametri moltiplicano, sommano, filtrano i numeri. Migliaia di operazioni matematiche semplici, ripetute miliardi di volte, in pochi secondi.

Alla fine esce una sequenza di numeri nuova. Quei numeri vengono convertiti in parole. La poesia appare sul tuo schermo. Ogni parola scelta dal modello è stata influenzata da quei parametri appresi durante l'addestramento.

Se il modello ha sbagliato la scelta di una parola, significa che per quella combinazione specifica di input e contesto, i parametri non sono stati calibrati perfettamente. Quando un linguista critica ChatGPT per una risposta strana, spesso sta dicendo: quei parametri non hanno imparato abbastanza su quel tema specifico.

La sfida di aumentare i parametri

Perché non creare un modello con un bilione di parametri? Primo motivo: il costo. Ogni parametro aggiunto richiede più memoria, più potenza di calcolo durante l'addestramento. Un bilione di parametri costerebbe miliardi di dollari e consumerebbe enormi quantità di energia.

Secondo motivo: i dati. Per insegnare a un modello con un bilione di parametri occorrerebbero trilioni di parole di qualità. Il web non contiene abbastanza testi di buona qualità. OpenAI ha già usato la maggior parte dei dati pubblici disponibili per addestrare GPT-3 e GPT-4.

Terzo motivo: l'hardware. Quando addestri un modello così grande, devi suddividerlo tra centinaia o migliaia di chip GPU. Koordinare milioni di operazioni contemporanee su macchine diverse diventa un problema di ingegneria complesso.

Parametri visibili e invisibili

Quando senti dire che un modello ha 175 miliardi di parametri, quelli sono i parametri della parte principale della rete neurale, chiamata transformer. Ma un modello AI completo ha anche altri parametri nascosti. I bias, gli indici di normalizzazione, i pesi delle funzioni di attivazione. Il numero totale è spesso leggermente più alto di quello pubblicizzato.

Non è una frode. I ricercatori contano così perché il numero principale è quello che conta davvero per la capacità di ragionamento. I parametri aggiuntivi sono infrastruttura necessaria, ma secondaria.

Cosa ci dice il numero di parametri

Quando vedi che Claude 3 ha 137 miliardi di parametri mentre Gemini ne ha 1.8 trilioni, puoi dedurre che Gemini è stato disegnato per affrontare compiti più complessi. Ma il numero da solo non basta per giudicare la qualità. Un modello con meno parametri ma migliore addestramento e architettura potrebbe comportarsi meglio di uno più grande.

I parametri sono come i pixel in un'immagine. Più pixel, più dettagli può contenere l'immagine. Ma una foto da 100 megapixel scattata male è meno bella di una da 12 megapixel ben composta. La qualità dipende da molti fattori oltre al numero puro.

Capire che cosa sono i parametri ti aiuta a leggere le notizie su AI con consapevolezza. Non è solo marketing quando una azienda annuncia un modello più grande. Ma non è nemmeno l'unica cosa che conta. La vera intelligenza nasce dall'equilibrio tra la dimensione della rete, la qualità dell'addestramento e l'architettura intelligente del sistema.