Dal testo al video in pochi secondi: l'ultima rivoluzione dell'IA

19/02/2024

Fabio Setta

Dal testo al video in pochi secondi: l'ultima rivoluzione dell'IA

Creare un video da una semplice indicazione testuale. Ecco l’ultima novità di OpenAI la casa madre dell’applicazione generativa di testo ChatGpt. Sora, parola che in giapponese vuol dire cielo, è il sistema text-to-video di OpenAI capace di generare in pochi secondi filmati di qualità incredibile. Basterà descrivere a Sora quanto vogliamo vedere e l’IA realizzerà il video interpretando le nostre indicazioni. Sora non è il primo di questo tipo di modelli, ma sembra quello più avanzato e vedendo i primi video pubblicati su X il risultato appare strabiliante. Sora è in grado di generare scene complesse con più personaggi, tipi specifici di movimento e dettagli accurati del soggetto e dello sfondo. Il modello comprende non solo ciò che l’utente ha chiesto nel prompt, ma anche come queste cose esistono nel mondo fisico. Sora ha una profonda comprensione del linguaggio, che gli consente di interpretare con precisione i suggerimenti e generare personaggi avvincenti che esprimono emozioni vibranti. Sora può anche creare più scatti all'interno di un singolo video generato che persistono con precisione i personaggi e lo stile visivo.

«Stiamo insegnando all’intelligenza artificiale a comprendere e simulare il mondo fisico in movimento, con l’obiettivo di addestrare modelli che aiutino le persone a risolvere problemi che richiedono interazioni nel mondo reale», si legge nella pagina di presentazione di Sora. Al momento, i video non possono essere più lunghi di un minuto, e possono essere generati a partire da un testo, da un’immagine o da una breve clip che viene estesa dall’intelligenza artificiale. Per ora, Sora è disponibile solo per alcuni sviluppatori selezionati, artisti visuali, filmmaker. Sora non è stata ancora rilasciata al pubblico, nemmeno in versione di prova, anche perché OpenAl deve ancora capire come proteggerla da eventuali problemi dovuti alla produzione di video falsi, fatti passare per veri.

«Il nostro classificatore di testo controllerà e rifiuterà i prompt degli input di testo che violano le nostre politiche di utilizzo, come quelle che richiedono violenza estrema, contenuti sessuali, immagini odiose, somiglianza di celebrità o IP di altri. Abbiamo anche sviluppato robusti classificatori di immagini che vengono utilizzati per rivedere i fotogrammi di ogni video generato per garantire che aderisca alle nostre politiche di utilizzo, prima che venga mostrato all'utente. Coinvolgeremo i responsabili politici, gli educatori e gli artisti di tutto il mondo per comprendere le loro preoccupazioni e per identificare i casi d'uso positivi per questa nuova tecnologia».

Articoli Recenti

Dal testo al video in pochi secondi: l'ultima rivoluzione dell'IA

Articoli Recenti

Una tastiera per Codex: OpenAI entra nel mondo dell'hardware

Todoist: l'app per organizzare progetti di lavoro e impegni quotidiani

Android 17: tutte le novità del nuovo sistema operativo di Google