Quando lavori con modelli di linguaggio, ti trovi di fronte a un problema ricorrente: il tuo prompt funziona bene in alcuni casi e produce risultati inaspettati in altri. Il metodo della temperatura crescente è una procedura di testing che affronta proprio questa incertezza. Invece di lanciare il prompt una volta e sperare nel meglio, lo esegui ripetutamente aumentando progressivamente il parametro di temperatura, registrando come cambiano le risposte.

La temperatura è il parametro che controlla la "casualità" del modello di linguaggio. Con temperatura a zero, il modello produce sempre la risposta più probabile, in modo deterministico. Man mano che aumenti il valore, il modello ha libertà di scegliere fra opzioni meno probabili, generando variazioni e creatività crescente. Non esiste una scala universale, ma generalmente si va da 0 a 2.

Perché testare con questo metodo

Un prompt può sembrare perfetto quando lo scrivi, ma cela fragilità nascoste. Forse funziona bene solo quando l'IA sceglie la strada più ovvia. Forse crolla quando le viene concessa un po' di libertà creativa. Il metodo della temperatura crescente rivela entrambi i scenari.

Se il tuo prompt mantiene coerenza e qualità anche con temperature alte, significa che hai costruito vincoli robusti. Se invece la qualità degrada rapidamente, il prompt si affida troppo al comportamento predefinito del modello e non comunica bene le tue intenzioni.

Come strutturare il test

Inizia definendo il tuo prompt complesso. Questo deve contenere tutti gli elementi importanti: il ruolo assegnato al modello, il contesto, il compito specifico, i vincoli di formato e tono.

Scegli una serie di temperature da testare. Un approccio pratico è: 0, 0.3, 0.6, 0.9, 1.2, 1.5. Questi valori forniscono una progressione che mostra chiaramente il cambio di comportamento senza richiedere centinaia di test. Alcuni preferiscono aumentare con incrementi di 0.2, altri di 0.5. La scelta dipende da quanto è critico il tuo use case.

Per ogni temperatura, esegui il prompt almeno tre volte. Non basta una sola esecuzione: a temperature alte, la variabilità è naturale e attesa. Tre esecuzioni permettono di vedere se i risultati si distribuiscono intorno a una media coerente o se sono completamente caotici.

Cosa registrare durante il test

Non limitarti a leggere le risposte. Crea una semplice tabella con colonne per: temperatura, numero esecuzione, lunghezza della risposta, aderenza alle istruzioni, coerenza logica, tono richiesto. Per la coerenza logica assegna una valutazione rapida: alta, media, bassa. Per il tono, verifica se corrisponde a quanto richiesto nel prompt.

Annota anche gli elementi anomali: contraddizioni, digressioni, mancati vincoli di formato. Se il prompt chiede un elenco puntato e a temperature alte il modello passa a paragrafi, quella è un'informazione cruciale sulla robustezza del prompt.

Analizzare i risultati

Quando hai completato le esecuzioni, traccia un quadro mentale della curva: a quale temperatura il prompt inizia a cedere? Dove la qualità crolla? Dove rimane stabile? Un prompt ben scritto mantiene stabilità almeno fino a 0.8 o 0.9. Se degrada a 0.4, significa che la struttura del prompt dipende troppo dall'ordine naturale delle parole e non fornisce istruzioni abbastanza esplicite.

Se scopri che il prompt funziona solo a temperature molto basse, considera di aggiungere vincoli più forti: definisci con precisione il numero di paragrafi, il lessico proibito, esempi di output corretto. Se funziona bene anche ad alte temperature, hai un prompt resistente.

Affinare e iterare

Il test della temperatura crescente non è un momento una tantum. Lo usi per diagnosticare problemi, poi modifichi il prompt e ripeti il test. Ogni iterazione migliora la robustezza. Un prompt evolve così: dalla versione iniziale alla versione testata sistematicamente, dalla diagnosi dei problemi alla soluzione targettizzata.

Alcuni ingegneri di prompt mantengono un file di test con tutti i risultati storici. Non per ossessione, ma perché permette di vedere se le modifiche al prompt hanno effettivamente stabilizzato i risultati oppure li hanno solo spostati diversamente lungo la scala di temperatura.

Quando fermarsi

Non esiste un livello di perfezione assoluto. L'obiettivo è capire il comportamento del prompt e decidere se è accettabile per il tuo caso d'uso. Se il prompt deve operare in ambienti dove è consentita creatività, una temperatura di 1.0 potrebbe essere appropriata e il prompt deve dimostrarsi stabile a quel livello. Se invece deve essere rigidamente deterministico, basta che sia solido a temperatura 0 e che degradi in modo controllato man mano che aumenti.

Il metodo della temperatura crescente trasforma il testing da un'attività vaga a una procedura riproducibile. Non rimuove l'incertezza dalla progettazione di prompt, ma la documenta e la rende gestibile. Quando conosci i limiti del tuo prompt, puoi decidere consapevolmente come usarlo.