Immagina una conversazione con un assistente intelligente. Inizi a raccontargli del tuo lavoro, i tuoi problemi, le tue preferenze. Per i primi cento messaggi sembra che ricordi tutto. Poi intorno al centesimo cinquantesimo messaggio cominci a notare qualcosa di strano: l'IA inizia a ripetere se stesso, contraddice cose che aveva detto prima, perde il filo della discussione. Non è che sia diventato stupido. È che la sua memoria si è riempita.
Questo spazio di memoria ha un nome preciso: context window. È uno dei concetti più importanti per capire come funzionano le intelligenze artificiali come ChatGPT, Claude o Gemini.
Che cos'è il context window
Il context window è la quantità massima di testo che un'IA può leggere e processare contemporaneamente. Non è misurato in messaggi, ma in token. Un token è una piccola unità di testo, grosso modo una parola. In media, una parola corrisponde a un token e mezzo, ma la conversione non è esatta.
ChatGPT 3.5, il modello base, ha un context window di 4.096 token. ChatGPT 4 arriva a 128.000 token. Claude 3 raggiunge addirittura 200.000 token. Gemini di Google fino a 1 milione. I numeri cambiano spesso perché le aziende aggiornano continuamente i loro modelli.
Sembra tanto, ma non lo è quanto pare. 4.096 token equivalgono a circa 2.700 parole. Una pagina A4 contiene mediamente 250 parole. Quindi un context window di 4.096 token è appena sopra le dieci pagine fitte di testo. Se stai avendo una conversazione naturale, in quante frasi usi 2.700 parole? Forse quaranta o cinquanta messaggi lunghi, o cento messaggi brevi.
Come funziona la memoria limitata
Durante una conversazione, il context window non viene riempito solo dai tuoi messaggi. Ci va anche la risposta dell'IA stessa. Se tu scrivi 1.000 token e l'IA risponde con 500 token, al prossimo turno il context window disponibile scende ancora. Questo significa che il tuo primo messaggio, che sembrava importante, in realtà sta già prendendo spazio.
Quando il context window si riempie completamente, l'IA deve scegliere cosa eliminare e cosa tenere. La maggior parte dei modelli usa una strategia chiamata "context window shifting": buttano via i messaggi più vecchi, quelli all'inizio della conversazione, e mantengono solo quelli recenti. È come se un'IA potesse leggere solo gli ultimi capitoli di un libro, ma gli ultimi capitoli fossero quelli che hai scritto tu due minuti fa.
Perché questo è un problema
Se stai scrivendo un saggio lungo e chiedi all'IA di fargli da editor, o se stai costruendo un progetto complesso e dai istruzioni progressivamente, il sistema non riesce a mantenere coerenza. L'IA non ricorda che ti avevi detto di usare un certo tono, che avevi escluso certe parole, che avevi già scelto una struttura precisa.
Succede anche in consulenza: se stai parlando al chatbot di un problema professionale complesso, e la conversazione dura due ore, l'IA potrebbe aver già dimenticato i dettagli dei tuoi primi messaggi quando arriva al momento di darti il consiglio finale.
Un altro effetto è l'allucinazione. Quando un'IA non ha più il contesto completo della conversazione, a volte inventa dettagli che potrebbero suonare plausibili ma che non sono affatto quello che hai detto. Non sta mentendo di proposito: sta semplicemente ricreando quello che pensa dovrebbe seguire da quello che ancora ricorda.
Le soluzioni attuali
Le aziende che sviluppano queste IA stanno allungando i context window. È una corsa continua: più token, più memoria, migliore qualità delle risposte lunghe. Ma allungare il context window ha un costo computazionale. Significa più energia, server più potenti, tempi di risposta più lenti. Ecco perché non tutti i modelli hanno context window infiniti.
Un'altra soluzione è il "few-shot prompting". Invece di dare istruzioni una volta all'inizio, le ribadisci periodicamente nella conversazione, anche se l'IA dovrebbe ricordarle. È come mettere una nota adesiva sulla scrivania ogni volta che hai paura che qualcuno dimentichi le tue priorità.
Alcuni strumenti usano anche memorie esterne: salvano i dettagli importanti della conversazione in un database e li riepilogano quando serve. L'IA non mantiene tutto in memoria attiva, ma può richiamarlo quando ne ha bisogno.
Il futuro
Il trend è chiaro: i context window cresceranno. Non indefinitamente, ma abbastanza da permettere conversazioni che durano giorni senza perdita di coerenza. Nel frattempo, per le conversazioni lunghe veramente importanti, ha senso ricapitolare le istruzioni principali ogni tanto e non dare per scontato che l'IA ricordi tutto quello che è successo nelle prime ore della chat.
