Un nouveau système d'IA peut créer une variété d'images à la fois réalistes et surréalistes à partir de descriptions en langage naturel. Cela a le potentiel de changer la donne, mais non sans quelques inquiétudes.
Les algorithmes et l'IA continuent de faire des vagues dans l'industrie de l'art.
La dernière percée vient d'une équipe de recherche appelée OpenAI, qui vient de dévoiler une nouvelle version de son programme DALL-E. Ce logiciel est un outil de génération de texte en image qui produit des illustrations basées sur une description entrée par l'utilisateur.
Voir ce post sur Instagram
Appelée à juste titre DALL-E 2, cette nouvelle IA ne sera pas accessible au public, mais les chercheurs peuvent s'inscrire pour prévisualiser ses capacités. OpenAI dit qu'il prévoit de rendre son logiciel disponible pour une utilisation dans des applications tierces à terme - mais on ne sait pas quand cela se produira.
Pour l'instant, le programme sera testé par des partenaires approuvés.
Les utilisateurs ne sont pas autorisés à télécharger des images générées susceptibles de « causer » et doivent divulguer la raison pour laquelle ils utilisent l'IA.
Comment fonctionne DALL-E 2 ?
Bien que je ne sois en aucun cas un expert en codage, je vous confirmez que DALL-E 2 fonctionne à l'aide d'une bibliothèque d'images prédéfinie. L'algorithme reçoit une multitude d'images étiquetées, puis crée de nouvelles illustrations basées sur ce qu'il sait déjà.
Disons que vous vouliez créer une image d'un tigre sur un canoë. Bizarre, non ? Mais DALL-E 2 recherchera dans ses fichiers pour trouver à quoi ressemblent un "canoë" et un "tigre" et créera une seule pièce qui combine les deux de manière convaincante.
Voir ce post sur Instagram
DALL-E 2 s'appuie sur le CLIP de la première itération, un système de vision par ordinateur. OpenAI indique que ce nouveau logiciel génère des images en utilisant la "diffusion", dans laquelle une pièce commence par quelques points et se remplit progressivement de détails.
Ce processus se déroule via un modèle en deux étapes. CLIP associe d'abord votre texte à d'autres photographies et images existantes, puis un "décodeur" génère l'image elle-même.
La vidéo ci-dessus donne une brève démonstration de ce qui est possible, montrant des chats générés par l'IA, des versions éditées de manière réaliste d'images préexistantes et un système complexe d'étiquetage d'objet qui permet à DALL-E 2 de comprendre vos invites. C'est vraiment impressionnant.
Fait intéressant, OpenAI souligne qu'il reste encore des erreurs et des problèmes à résoudre.
Voir ce post sur Instagram
Les objets mal étiquetés peuvent amener l'algorithme à produire des images incorrectes qui ne correspondent pas à la description textuelle fournie. Si, dans son codage, il contient une photo préexistante d'une voiture étiquetée comme un "avion", par exemple, cela pourrait faire complètement dérailler le générateur, renvoyant une BMW au lieu d'un Boeing.
De plus, des invites très spécifiques ne sont pas possibles tant que l'IA n'a pas étiqueté et appris quels sont les objets pertinents.
Demander une ville ou une espèce animale rare peut entraîner des images bancales et incorrectes jusqu'à ce que l'algorithme ait été amélioré. Gardez à l'esprit qu'il ne s'agit que de la deuxième itération de DALL-E, nous verrons donc sans aucun doute encore plus de démos hallucinantes à l'avenir.