Immagina di scrivere una domanda in una chat IA. Dal momento in cui premi Invio, c'è un intervallo di tempo prima che compaiano le prime parole della risposta. Quel tempo è la latenza. Non è quanto velocemente l'IA produce tutte le parole, ma quanto attende prima di iniziare.
La latenza si misura in millisecondi o secondi. Un sistema con latenza bassa risponde quasi subito. Un sistema con latenza alta fa aspettare. Ma una latenza alta non significa sempre che il sistema sia lento nel suo insieme.
La differenza tra latenza e velocità generale
Un errore comune: confondere latenza con velocità globale. Non è la stessa cosa. Un'IA può avere una latenza di 500 millisecondi sulla prima risposta, ma poi elaborare 1000 richieste al minuto. Un'altra potrebbe rispondere in 100 millisecondi alla prima richiesta, ma processare solo 50 richieste al minuto.
La latenza riguarda il ritardo iniziale. La velocità globale, in termini tecnici chiamata "throughput", riguarda quanti compiti vengono completati in un tempo definito. Sono metriche diverse che rispondono a domande diverse.
Per chi usa un'IA in tempo reale, una bassa latenza è cruciale. Se scrivi in una chat e aspetti due secondi prima che compaiano le parole, l'esperienza è frustrante, anche se il sistema produce un milione di caratteri al minuto. Per chi usa l'IA per elaborare enormi quantità di dati di notte, la latenza conta poco. Importa completare tutto entro l'alba.
Come cambia la latenza in pratica
Dipende da molti fattori. La distanza fisica tra il computer dell'utente e il server che esegue l'IA influisce sulla latenza di rete. Più lontano è il server, più tempo impiega il segnale a viaggiare. Una richiesta spedita da Roma a un server in California avrà sempre più latenza di una spedita a un server a Milano.
Anche la complessità del modello IA conta. Un modello più grande, con più parametri, impiega generalmente più tempo a elaborare ogni richiesta. Se il modello deve fare molti calcoli prima di generare una risposta, la latenza sale. Modelli più piccoli e semplificati hanno latenze minori, ma spesso producono risposte meno precise.
Anche quanto è occupato il server gioca un ruolo. Se centinaia di persone inviano richieste contemporaneamente, il sistema deve metterle in coda. La latenza non è solo il tempo di calcolo, ma anche il tempo di attesa nella fila.
Quando la bassa latenza è essenziale
Ci sono scenari dove la latenza conta moltissimo. Un'IA che analizza i dati dei sensori di un'auto a guida autonoma deve rispondere in pochi millisecondi. Se c'è un ostacolo davanti, il ritardo deve essere minimo. Anche 500 millisecondi di latenza potrebbero causare un incidente.
Un sistema di riconoscimento facciale negli aeroporti ha requisiti simili. Deve identificare una persona in tempo reale, mentre la persona passa davanti alla telecamera.
Anche le app di chat in tempo reale necessitano di bassa latenza. Se scrivi a una chat video e c'è un ritardo di due secondi tra quando parli e quando l'altro ti sente, la conversazione diventa difficile.
Quando la latenza non è il problema principale
Se un'azienda usa un'IA per analizzare migliaia di email ogni notte e identificare quelle spam, la latenza della singola email è quasi irrilevante. Anche se impiega 10 secondi per email, il sistema completa tutto in poche ore. Quello che conta è il throughput: quante email vengono elaborate in totale.
Lo stesso vale per i sistemi di IA che addestrano modelli nuovi. L'addestramento può durare giorni o settimane. Una latenza più alta su un singolo calcolo non è il collo di bottiglia. Il collo di bottiglia è quanta memoria e potenza di calcolo il sistema usa per completare ogni fase.
Come si misura e si comunica la latenza
Gli sviluppatori di sistemi IA misurano la latenza in millisecondi (ms). Una latenza di 50 ms significa 50 millesimi di secondo. Una latenza di 1000 ms è un secondo intero.
Spesso viene riportata la "latenza P50", cioè il tempo per il 50 percento delle richieste. O la "latenza P99", che misura il 99 percento delle richieste. Se un'IA ha latenza P99 di 2 secondi, significa che una richiesta su 100 impiega almeno 2 secondi. Le altre 99 sono più veloci.
Questa distinzione è importante perché la latenza non è costante. A volte l'IA risponde in 100 ms, a volte in 800 ms. Tutto dipende da cosa sta facendo il sistema in quel momento.
Latenza e qualità della risposta
Non esiste un legame diretto tra latenza bassa e qualità della risposta. Un'IA potrebbe impiegare 500 millisecondi per produrre una risposta precisa e accurata. Un'altra potrebbe rispondere in 100 millisecondi ma fornire informazioni meno affidabili. La latenza è una misura di tempo, non di qualità.
Però in alcuni casi c'è un compromesso. Se réduci la latenza con tecniche come la compressione del modello o l'uso di approssimazioni nei calcoli, spesso paghi un prezzo in termine di accuratezza. Il modello compresso rischia di fare errori più frequenti.
Perché parlare di latenza importa
Quando leggi di un nuovo sistema IA e senti dire "è veloce", è utile chiedersi cosa si intende davvero. Latenza bassa significa risponde rapidamente alla prima richiesta. Throughput alto significa elabora molte richieste in parallelo. Velocità di elaborazione elevata significa fa molti calcoli in poco tempo.
Sono tre aspetti diversi della velocità. Ognuno importa in contesti diversi. Un chatbot deve avere latenza bassa. Un sistema di analisi dati deve avere throughput alto. Un server che addestra modelli IA deve avere velocità di calcolo elevata.
Capire la differenza tra latenza e altre metriche di velocità aiuta a valutare se un'IA è davvero adatta al compito che deve fare. E aiuta i tecnici a progettare sistemi che funzionano bene per lo scopo per cui sono stati creati.
