19/02/2024
Fabio Setta
Dal testo al video in pochi secondi: l'ultima rivoluzione dell'IA
Creare un video da una semplice indicazione testuale. Ecco l’ultima novità di OpenAI la casa madre dell’applicazione generativa di testo ChatGpt. Sora, parola che in giapponese vuol dire cielo, è il sistema text-to-video di OpenAI capace di generare in pochi secondi filmati di qualità incredibile. Basterà descrivere a Sora quanto vogliamo vedere e l’IA realizzerà il video interpretando le nostre indicazioni. Sora non è il primo di questo tipo di modelli, ma sembra quello più avanzato e vedendo i primi video pubblicati su X il risultato appare strabiliante. Sora è in grado di generare scene complesse con più personaggi, tipi specifici di movimento e dettagli accurati del soggetto e dello sfondo. Il modello comprende non solo ciò che l’utente ha chiesto nel prompt, ma anche come queste cose esistono nel mondo fisico. Sora ha una profonda comprensione del linguaggio, che gli consente di interpretare con precisione i suggerimenti e generare personaggi avvincenti che esprimono emozioni vibranti. Sora può anche creare più scatti all'interno di un singolo video generato che persistono con precisione i personaggi e lo stile visivo.
«Stiamo insegnando all’intelligenza artificiale a comprendere e simulare il mondo fisico in movimento, con l’obiettivo di addestrare modelli che aiutino le persone a risolvere problemi che richiedono interazioni nel mondo reale», si legge nella pagina di presentazione di Sora. Al momento, i video non possono essere più lunghi di un minuto, e possono essere generati a partire da un testo, da un’immagine o da una breve clip che viene estesa dall’intelligenza artificiale. Per ora, Sora è disponibile solo per alcuni sviluppatori selezionati, artisti visuali, filmmaker. Sora non è stata ancora rilasciata al pubblico, nemmeno in versione di prova, anche perché OpenAl deve ancora capire come proteggerla da eventuali problemi dovuti alla produzione di video falsi, fatti passare per veri.
«Il nostro classificatore di testo controllerà e rifiuterà i prompt degli input di testo che violano le nostre politiche di utilizzo, come quelle che richiedono violenza estrema, contenuti sessuali, immagini odiose, somiglianza di celebrità o IP di altri. Abbiamo anche sviluppato robusti classificatori di immagini che vengono utilizzati per rivedere i fotogrammi di ogni video generato per garantire che aderisca alle nostre politiche di utilizzo, prima che venga mostrato all'utente. Coinvolgeremo i responsabili politici, gli educatori e gli artisti di tutto il mondo per comprendere le loro preoccupazioni e per identificare i casi d'uso positivi per questa nuova tecnologia».