Sei seduto davanti a ChatGPT e gli dai istruzioni precise per rispondere in un certo modo. Perfetto. Ma dopo dieci, quindici messaggi accorgi che ha abbandonato tutto. Torna a rispondere come gli pare, ignorando quello che ti aveva promesso di fare. Non e una sensazione: accade davvero, e ha una causa ben precisa.
Non e pigrizia del modello. E nemmeno un bug. E il modo in cui ChatGPT gestisce la memoria durante una conversazione, costruita su una risorsa limitata chiamata contesto o token budget. Capire il meccanismo significa capire come risolverlo davvero.
Perche ChatGPT dimentica le istruzioni iniziali
ChatGPT funziona in modo diverso da quanto molti credono. Non tiene una memoria persistente tra una domanda e l altra. Ogni volta che risponde, il modello riceve l intera conversazione fino a quel punto, la elabora tutta insieme, e genera la risposta successiva.
Questa conversazione intera ha una dimensione massima, misurata in token. Un token e circa una parola, o una piccola frazione di essa. Con GPT-4 hai fino a 128.000 token. Con GPT-3.5, 4.096.
All inizio della conversazione, occupi spazio con le tue istruzioni dettagliate. Se dici a ChatGPT di risolvere i problemi in tre punti numerati e di usare un tono formale, quei comandi consumano token. Con ogni messaggio nuovo che aggiungi alla conversazione, consumi spazio dal tuo budget totale.
Man mano che il budget si riempie, il modello fa qualcosa di cruciale per continuare a funzionare: inizia a dare meno peso alle istruzioni iniziali, o le perde del tutto. Non perche le dimentichi nel senso umano, ma perche il sistema di attenzione del modello le comprime mentalmente per fare spazio ai messaggi piu recenti.
Dopo dieci, venti messaggi, le tue istruzioni originali sono ancora formalmente nella conversazione, ma il modello le tratta come rumore di fondo. Rispondendo, si concentra soprattutto su quello che hai chiesto negli ultimi due o tre scambi.
Come risolvere il problema: le tecniche che funzionano
Conosci il problema. Ora le soluzioni concrete.
Ripetere le istruzioni chiave
La soluzione piu semplice e scomoda: reintrodurre le tue istruzioni ogni cinque o sei messaggi. Non per magia, ma perche le metti di nuovo in primo piano, dove il modello le pesa di piu durante l elaborazione successiva.
Se hai detto a ChatGPT "rispondi sempre in tre punti", ricordaglielo direttamente nel messaggio: "Continua a rispondere in tre punti come mi hai detto all inizio, ma ora voglio sapere...".
Usare un prompt strutturato e compatto
Non basta dire le istruzioni una volta. Formattale in modo che occupino meno token ma siano piu forti. Invece di scrivere lunghe frasi, usa una struttura tipo:
RUOLO: [il ruolo di ChatGPT]
FORMATO RISPOSTA: [come deve rispondere]
TONE: [quale registro]
LIMITI: [cosa evitare]
Questa struttura, anche se breve, rimane semanticamente forte. Il modello la tratta con piu rispetto rispetto al testo narrativo lungo.
Creare un Custom GPT
Se usi una conversazione regolare, le istruzioni sono vulnerabili. Se crei un Custom GPT, carichi le istruzioni una sola volta. Ogni nuovo utente che parla con il tuo GPT le riceve automaticamente, e rimangono attive per tutta la conversazione, senza rischio di "dimenticanza".
Per crearne uno: vai su ChatGPT, sezione Esplora, crea un GPT. Scrivi le istruzioni nel campo "Instructions". Sono protette dal sistema e non rischiano di sparire.
Dividere la conversazione
Se la conversazione diventa troppo lunga, fai una pausa. Inizia una nuova conversazione e ricopia il prompt iniziale. Cos recuperi spazio di contesto e le istruzioni tornano a pesare quanto prima.
Quale modello scegliere se hai conversazioni lunghe
Se il tuo lavoro richiede conversazioni molto lunghe, GPT-4 o GPT-4o sono migliori di GPT-3.5. Non perche non dimentichino, ma perche il budget di token piu ampio ti da piu margine prima che le istruzioni inizino a pesare meno.
Con 128.000 token puoi mantenere una conversazione di 100+ messaggi senza problemi. Con 4.096 token sei stretto gia dopo trenta, quaranta scambi.
Il trucco invisibile: prompt chaining
Se vuoi risolvere il problema in modo elegante, usa il prompt chaining. Invece di dare tutte le istruzioni all inizio, le distribuisci lungo la conversazione, reintroducendole naturalmente quando servono.
Primo messaggio: dai il contesto e il ruolo.
Dopo cinque messaggi: dai il format richiesto.
Dopo altri cinque: dai i limiti o le eccezioni.
Questo approccio mantiene le istruzioni sempre "nuove" per il modello senza che tu debba ripeterle in modo innaturale.
La realta oltre il problema
Non e un difetto di ChatGPT, ma una conseguenza della sua architettura. Tutti i modelli basati su transformer e su contesto finito hanno lo stesso limite. Anche GPT-4, Claude, Gemini.
Conoscere il meccanismo cambia il modo di usare questi strumenti. Non aspettarsi che ricordino per magia. Organizzare le istruzioni come se fossero risorse scarse. Ripetere quando necessario. Strutturare tutto in modo compatto.
Farlo non e una contromisura frustrante. E adattarsi a come funziona davvero la tecnologia, invece di cullarsi nell illusione che funzioni diversamente.
