Sora: il nuovo modello di OpenAI per generare immagini coerenti con il testo
OpenAI ha rilasciato un nuovo modello innovativo per la generazione di immagini, finalmente capace di rispettare con precisione il testo inserito nel prompt. È una svolta importante: ora possiamo creare contenuti visivi ricchi di dettagli, coerenti sia dal punto di vista grafico che semantico. Il problema delle scritte sbagliate o senza senso all’interno delle immagini sembra superato. Il nuovo modello è accessibile da Sora alla voce Images.
Sora è un’interfaccia avanzata integrata nel sistema ChatGPT (nella versione Plus e Pro) che consente di generare immagini e video a partire da prompt testuali complessi, anche accompagnati da schizzi, immagini di riferimento o loghi. Il sistema riconosce il contesto, scrive correttamente sulle lavagne, sui cartelli, dentro ai meme, e lo fa con coerenza stilistica.
Come si genera una immagine?
Per generare una immagine basta cliccare sulla voce Images nel menu laterale, cliccare su Video vicino al prompt e selezionare Images.

A questo punto non resta altro da fare che digitare un prompt e attendere il risultato finale. L'elaborazione può durare anche qualche minuto, perché la richiesta viene messa in una coda di lavorazione. Il tempo necessario per generare l'immagine dipende anche dal numero degli utenti che sta usando Sora. Ad esempio, abbiamo chiesto: "A technology magazine cover with the title 'AI Revolution: The Future is Now'. Dopo qualche decina di secondi Sora ci restituisce una immagine pertinente con il testo che abbiamo richiesto. Una cosa del tutto impensabile da fare con Dall-E.

Oltre al classico prompt testuale, Sora permette di caricare uno sketch o un’immagine di riferimento per guidare la generazione. È utile per designer, marketer e sviluppatori che vogliono trasformare idee grezze in contenuti visivi professionali. Ad esempio, abbiamo caricato una foto del Partenone e gli abbiamo chiesto di trasformarla in un disegno a matita. Il risultato è stato notevole.

Sora si presta a una miriade di applicazioni. Nel settore dell'educazione e della formazione può essere usato per creare infografiche didattiche che spiegano concetti complessi. Ad esempio, si può chiedere di creare un'illustrazione che spieghi il ciclo dell'acqua e viene rappresentato con chiarezza, mostrando tutte le fasi accompagnate da testo esplicativo ben formattato.

Dal punto di vista marketing può essere usato per realizzare poster, volantini, pubblicità social, mockup di prodotto. Ad esempio, generare un’immagine pubblicitaria con un prodotto, una bottiglia, una scritta chiara e il logo sopra. Tutto in un’unica richiesta.
Per ora, Sora è disponibile solo per gli utenti Plus e Pro di ChatGPT. L’utilizzo è illimitato, ma a causa dell’elevata richiesta, possono verificarsi rallentamenti nella generazione. Le prestazioni migliorano quando il traffico cala (ad esempio, di notte negli Stati Uniti).
In conclusione, Sora rappresenta un netto cambio di paradigma nella generazione di contenuti visivi di OpenAI. Finalmente, un modello capace di rispettare il testo, leggere uno schizzo, interpretare un’idea e trasformarla in un’immagine efficace. Un obiettivo che non sempre veniva raggiunto da Dall-E, il modello di generazioni delle immagini integrato dentro ChatGPT. Il nuovo modello dentro Sora è nettamente superiore. Non si tratta più solo di "belle immagini", ma di contenuti funzionali e mirati, creati in pochi secondi.