Con l’annuncio di GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper, OpenAI compie un nuovo passo nell’evoluzione delle applicazioni vocali basate sull’intelligenza artificiale. I tre nuovi modelli sono stati pensati soprattutto per gli sviluppatori che vogliono creare software capaci non solo di comprendere la voce umana, ma anche di interagire in tempo reale, tradurre conversazioni e trascrivere contenuti con una fluidità sempre più vicina a quella di un dialogo naturale.

Il modello più avanzato della nuova famiglia è GPT-Realtime-2, definito da OpenAI come il primo sistema vocale con capacità di ragionamento di classe GPT-5. A differenza delle precedenti generazioni, questo modello non si limita a convertire voce in testo e viceversa, ma è in grado di mantenere il contesto durante conversazioni lunghe, gestire interruzioni, richiamare strumenti esterni e rispondere in modo più coerente e naturale.

Accanto a questo modello arriva GPT-Realtime-Translate, pensato per la traduzione simultanea delle conversazioni. Il sistema supporta oltre 70 lingue in ingresso e 13 lingue in uscita, consentendo traduzioni vocali quasi istantanee mentre l’utente sta ancora parlando.

Il terzo modello, GPT-Realtime-Whisper, rappresenta invece l’evoluzione in tempo reale di Whisper, il celebre sistema di trascrizione vocale di OpenAI. La nuova versione è stata progettata per generare sottotitoli, appunti e trascrizioni mentre una persona sta parlando, senza dover attendere la fine della registrazione.

I nuovi modelli sono già disponibili attraverso la Realtime API di OpenAI e possono essere testati nella piattaforma dedicata agli sviluppatori. Tra le aziende che stanno sperimentando queste tecnologie figurano realtà importanti come Zillow, Priceline e Deutsche Telekom.

Articoli Recenti