Tra tutti i prodotti che OpenAI ha rilasciato negli ultimi anni, ce ne è uno che ha avuto un impatto enorme ma silenzioso. Non è ChatGPT. Si chiama Whisper, è open source, è completamente gratuito, e fa una cosa sola: trascrive audio in testo. Solo che lo fa meglio di qualsiasi cosa esistesse prima, in 99 lingue, e puoi installarlo sul tuo computer senza dare un centesimo a nessuno.

Cosa fa

Whisper riceve un file audio (mp3, wav, m4a, qualsiasi formato comune) e restituisce un file di testo con la trascrizione. Sembra banale, ma il livello qualitativo che raggiunge era impensabile fino a tre anni fa: accuratezza del 95-98% sull'italiano standard, gestione di accenti, riconoscimento di pause e punteggiatura, distinzione tra parlanti diversi nei modelli più recenti.

Tre modi di usarlo

1) Sul tuo computer (la modalita' privata)

Whisper si scarica gratis ed è open source. Per chi sa cosa fare, l'installazione richiede 15 minuti via terminale. Per chi non vuole toccare la riga di comando, esistono interfacce grafiche pronte:

Vantaggio enorme: tutto resta sul tuo computer, niente passa in cloud. Per giornalisti, avvocati, medici è una caratteristica decisiva.

2) Tramite ChatGPT

Se carichi un audio nella chat di ChatGPT e gli chiedi di trascriverlo, sotto il cofano è Whisper a fare il lavoro. Comodo per uso saltuario.

3) Tramite servizi terzi

Decine di app web e mobile usano Whisper come motore: Otter, Notta, Trint, Sembly, Fireflies. Alcuni offrono extra (riassunti automatici, identificazione speaker, integrazione con Zoom). Tutti pagano OpenAI per usare Whisper via API.

Quanto è accurato in italiano

L'italiano è una delle lingue su cui Whisper si comporta meglio (anche perché OpenAI lo ha addestrato con quantità significative di audio italiano). Test reali:

Quattro casi in cui ti cambia la vita

1) Vocali WhatsApp. Quei vocali di 8 minuti che non vuoi ascoltare? Scarichi il file, lo dai a Whisper, leggi la trascrizione in 30 secondi.

2) Interviste e ricerca. Sei giornalista, ricercatore, podcaster? Trascrivi ore di interviste in minuti. Il lavoro che prima costava 50-100 euro all'ora ora è istantaneo.

3) Lezioni e meeting. Registra (con permesso) le tue lezioni o riunioni e ottieni testi cercabili.

4) Sottotitoli video. Whisper produce file SRT pronti per essere caricati su YouTube o nel tuo editor video.

I limiti onesti

Tre cose che Whisper non sa fare:

  1. Nomi propri rari. "Macaluso" diventa spesso "Macarino". Verifica sempre nomi.
  2. Termini molto tecnici specifici. Glossari medici, legali, ingegneristici di nicchia richiedono correzioni.
  3. Audio molto sporco. Se la registrazione è piena di rumore, anche Whisper soffre. Usa un buon microfono.

Una pausa di gratitudine

Whisper è uno di quei prodotti che cambia silenziosamente le abitudini di lavoro di milioni di persone. Non ha gli aggettivi gridati del marketing di ChatGPT, non genera meme, non scrive saggi. Fa una cosa, la fa bene, è gratis. E' il modo migliore in cui l'intelligenza artificiale puo' entrare nella nostra vita: fornendoci uno strumento, lasciandoci liberi di usarlo come meglio crediamo.