Un nuovo sistema di intelligenza artificiale può creare una varietà di immagini sia realistiche che surreali da descrizioni in linguaggio naturale. Ha il potenziale per cambiare il gioco, ma non senza alcune preoccupazioni.
Gli algoritmi e l'IA continuano a fare scalpore nel settore dell'arte.
L'ultima svolta arriva da un team di ricerca chiamato OpenAI, che ha appena presentato una nuova versione del suo programma DALL-E. Questo software è uno strumento di generazione da testo a immagine che produce grafica basata su una descrizione inserita dall'utente.
Visualizza questo post su Instagram
Chiamata giustamente DALL-E 2, questa nuova IA non sarà disponibile al pubblico, ma i ricercatori possono registrarsi per vedere in anteprima le sue capacità. OpenAI afferma che prevede di rendere disponibile il suo software per l'uso in app di terze parti, anche se non si sa quando ciò accadrà.
Per ora, il programma sarà testato da partner selezionati.
Gli utenti non possono caricare immagini generate che potrebbero "causare danni" e devono rivelare per cosa stanno utilizzando l'IA.
Come funziona DALL-E 2?
Anche se non sono affatto un esperto di programmazione, io può confermare che DALL-E 2 funziona utilizzando una libreria di immagini predefinita. L'algoritmo riceve una vasta gamma di immagini contrassegnate e quindi crea nuove opere d'arte basate su ciò che già conosce.
Supponi di voler creare l'immagine di una tigre su una canoa. Strano, vero? Ma DALL-E 2 cercherà nei suoi file per trovare l'aspetto di una "canoa" e una "tigre" e creerà un unico pezzo che combini in modo convincente entrambi.
Visualizza questo post su Instagram
DALL-E 2 si basa sul CLIP della prima iterazione, un sistema di visione artificiale. OpenAI afferma che questo nuovo software genera immagini utilizzando la "diffusione", per cui un pezzo inizia con pochi punti e viene gradualmente riempito di dettagli.
Questo processo avviene attraverso un modello a due stadi. CLIP prima abbina il tuo testo ad altre fotografie e immagini esistenti, quindi un "decodificatore" genera l'immagine stessa.
Il video sopra offre una breve dimostrazione di ciò che è possibile, mostrando gatti generati dall'intelligenza artificiale, versioni modificate in modo realistico di immagini preesistenti e un complesso sistema di etichettatura degli oggetti che consente a DALL-E 2 di comprendere le tue richieste. È roba davvero impressionante.
È interessante notare che OpenAI sottolinea che ci sono ancora errori e problemi da appianare.
Visualizza questo post su Instagram
Gli oggetti etichettati in modo errato potrebbero far sì che l'algoritmo produca immagini errate che non si allineano con la descrizione del testo fornita. Se all'interno della sua codifica ha una foto preesistente di un'auto etichettata come "aereo", ad esempio, questo potrebbe portare il generatore completamente fuori rotta, rimandando indietro una BMW invece di un Boeing.
Inoltre, non sono possibili richieste molto specifiche fino a quando l'IA non ha etichettato e appreso quali sono gli oggetti rilevanti.
La richiesta di una città o di una specie animale rara può risultare in immagini traballanti e errate fino a quando l'algoritmo non è stato migliorato. Tieni presente che questa è solo la seconda iterazione di DALL-E, quindi senza dubbio vedremo demo ancora più strabilianti in futuro.