Tra le tecniche AI di cui si parla di più nel 2026, una sigla domina le conversazioni dei reparti IT delle grandi aziende: RAG. Sta per Retrieval-Augmented Generation, in italiano "generazione aumentata dal recupero". Sembra arcano, ma il concetto sotto è straordinariamente semplice e utile. Vale la pena capirlo, perché è quello che fa funzionare cose come NotebookLM di Google e le AI specializzate aziendali.
Il problema che risolve
ChatGPT sa tantissimo, ma sa solo le cose che ha letto durante l'addestramento. Non conosce i tuoi documenti privati, non conosce i manuali interni della tua azienda, non conosce le ultime sentenze pubblicate dopo la sua data di knowledge cutoff. Se gli chiedi "qual è la procedura aziendale per le ferie?", risponde con generalità che potrebbero non essere quelle della tua azienda.
Una soluzione potrebbe essere il fine-tuning (specializzare il modello sui tuoi dati). Ma è costoso, lento, e ogni volta che cambi un documento devi riaddestrare. Il RAG è una soluzione molto più elegante.
Come funziona
Immagina che lavori in un grande studio legale e vuoi un assistente AI che risponda alle tue domande basandosi sulle 50.000 sentenze del vostro archivio. Con il RAG funziona così:
- Tutte le sentenze vengono trasformate in embedding (sequenze di numeri che ne catturano il significato). Le metti in un "database di vettori".
- Quando fai una domanda all'AI, anche la tua domanda viene trasformata in embedding.
- Il sistema cerca le 5-10 sentenze con embedding più simili alla tua domanda.
- Il sistema "incolla" il testo di quelle sentenze nel prompt che invia a ChatGPT.
- ChatGPT risponde alla tua domanda usando quelle sentenze come riferimento.
Il risultato: ChatGPT risponde come se conoscesse i tuoi dati, anche se in realtà non li ha mai visti prima. Glieli stiamo passando a ogni domanda.
Perché è una rivoluzione
Tre vantaggi enormi rispetto al fine-tuning:
1. I dati restano tuoi. Le sentenze non vengono mai inviate a OpenAI per addestrare il modello. Solo i pezzetti necessari per rispondere alla singola domanda passano nel prompt. Per le aziende con dati sensibili (banche, ospedali, studi legali) è un punto decisivo.
2. Aggiornamento istantaneo. Pubblichi un nuovo documento? Aggiungi il suo embedding al database, e da quel momento l'AI lo conosce. Senza riaddestrare nulla.
3. Le risposte citano le fonti. Siccome il sistema "sa" quali documenti ha usato per ogni risposta, può linkarli all'utente. Niente più allucinazioni: l'AI risponde solo basandosi su documenti reali, e te lo mostra.
Dove lo trovi nella vita reale
- NotebookLM di Google è un RAG bell'e fatto: carichi i tuoi PDF, lui li trasforma in embedding, e risponde solo basandosi su quelli.
- Perplexity è un RAG su scala internet: cerca prima le pagine web, poi le passa al modello per la risposta.
- I chatbot aziendali di banche, telefonia, e-commerce sono quasi tutti RAG sotto al cofano.
- Gli assistenti legali specializzati usano RAG sulle banche dati giurisprudenziali.
I limiti
Il RAG non risolve tutti i problemi. Se la tua domanda richiede di "ragionare" su molti documenti contemporaneamente, può fallire. Se la qualità della ricerca (trovare i documenti giusti) è scarsa, anche la risposta finale sarà scarsa. E richiede comunque una infrastruttura tecnica di una certa complessità.
Cosa significa per te
Quando senti notizie tipo "Azienda X lancia chatbot AI sulle proprie conoscenze interne", quasi sempre dietro c'è un RAG. Sapere la parola ti permette di capire meglio cosa quella tecnologia sa e non sa fare, e ti rende un cliente più consapevole quando aziende e fornitori ti propongono soluzioni AI personalizzate.
