Menu Menu

Le nouveau AI DALL-E 2 crée des images à partir d'invites de texte

Un nouveau système d'IA peut créer une variété d'images à la fois réalistes et surréalistes à partir de descriptions en langage naturel. Cela a le potentiel de changer la donne, mais non sans quelques inquiétudes.

Les algorithmes et l'IA continuent de faire des vagues dans l'industrie de l'art.

La dernière percée vient d'une équipe de recherche appelée OpenAI, qui vient de dévoiler une nouvelle version de son programme DALL-E. Ce logiciel est un outil de génération de texte en image qui produit des illustrations basées sur une description entrée par l'utilisateur.

Appelée à juste titre DALL-E 2, cette nouvelle IA ne sera pas accessible au public, mais les chercheurs peuvent s'inscrire pour prévisualiser ses capacités. OpenAI dit qu'il prévoit de rendre son logiciel disponible pour une utilisation dans des applications tierces à terme - mais on ne sait pas quand cela se produira.

Pour l'instant, le programme sera testé par des partenaires approuvés.

Les utilisateurs ne sont pas autorisés à télécharger des images générées susceptibles de « causer » et doivent divulguer la raison pour laquelle ils utilisent l'IA.


Comment fonctionne DALL-E 2 ?

Bien que je ne sois en aucun cas un expert en codage, je vous confirmez que DALL-E 2 fonctionne à l'aide d'une bibliothèque d'images prédéfinie. L'algorithme reçoit une multitude d'images étiquetées, puis crée de nouvelles illustrations basées sur ce qu'il sait déjà.

Disons que vous vouliez créer une image d'un tigre sur un canoë. Bizarre, non ? Mais DALL-E 2 recherchera dans ses fichiers pour trouver à quoi ressemblent un "canoë" et ​​un "tigre" et créera une seule pièce qui combine les deux de manière convaincante.

DALL-E 2 s'appuie sur le CLIP de la première itération, un système de vision par ordinateur. OpenAI indique que ce nouveau logiciel génère des images en utilisant la "diffusion", dans laquelle une pièce commence par quelques points et se remplit progressivement de détails.

Ce processus se déroule via un modèle en deux étapes. CLIP associe d'abord votre texte à d'autres photographies et images existantes, puis un "décodeur" génère l'image elle-même.

La vidéo ci-dessus donne une brève démonstration de ce qui est possible, montrant des chats générés par l'IA, des versions éditées de manière réaliste d'images préexistantes et un système complexe d'étiquetage d'objet qui permet à DALL-E 2 de comprendre vos invites. C'est vraiment impressionnant.

Fait intéressant, OpenAI souligne qu'il reste encore des erreurs et des problèmes à résoudre.

Les objets mal étiquetés peuvent amener l'algorithme à produire des images incorrectes qui ne correspondent pas à la description textuelle fournie. Si, dans son codage, il contient une photo préexistante d'une voiture étiquetée comme un "avion", par exemple, cela pourrait faire complètement dérailler le générateur, renvoyant une BMW au lieu d'un Boeing.

De plus, des invites très spécifiques ne sont pas possibles tant que l'IA n'a pas étiqueté et appris quels sont les objets pertinents.

Demander une ville ou une espèce animale rare peut entraîner des images bancales et incorrectes jusqu'à ce que l'algorithme ait été amélioré. Gardez à l'esprit qu'il ne s'agit que de la deuxième itération de DALL-E, nous verrons donc sans aucun doute encore plus de démos hallucinantes à l'avenir.


Pourquoi cela pourrait-il causer des problèmes aux artistes ?

Après avoir parcouru les illustrations créées par DALL-E 2, il est difficile de ne pas se sentir enthousiasmé par les possibilités de la technologie.

Nous devons cependant être conscients des pièges potentiels. Les artistes ont déjà beaucoup de mal à gagner de l'argent pour leur travail à l'ère d'Internet - d'où la raison initiale des NFT - et un nouvel outil d'image basé sur un algorithme pourrait mettre de nombreux petits illustrateurs numériques à la faillite.

Il deviendra également beaucoup plus difficile de vérifier l'authenticité d'une image ou d'une peinture en ligne, et peut dévaloriser le travail d'êtres humains authentiques. La frappe instantanée d'images pourrait devenir une possibilité, créant un marché NFT encore plus exploiteur.

Si tout le monde peut faire n'importe quoi instantanément, les illustrations et les peintures perdent-elles toute leur valeur commerciale ? L'art lui-même devient-il simplement une autre application ou un outil à utiliser par n'importe qui ?

Il y a de grandes questions existentielles quant aux implications de ces logiciels véritablement révolutionnaires, dont beaucoup n'ont pas de réponses.

Au crédit d'OpenAI, il semble très conscient des dangers. Il indique que DALL-E 2 ne sera jamais entièrement accessible au public et ne sera déployé que lentement auprès de chercheurs et de partenaires de confiance en fonction des commentaires. Les utilisateurs devront dire pourquoi ils utilisent le logiciel et ne peuvent pas créer d'images obscènes ou nuisibles.

Il veut s'assurer que la désinformation ou les images profondément truquées ne finissent pas par causer davantage de ravages dans nos systèmes politiques et notre discours en ligne également.

Ces intentions peuvent être assez solides, mais qui peut dire que d'autres codeurs moins bien intentionnés ne se contenteront pas de copier le travail d'OpenAI ? Nous avons déjà vu une application appelée Wombo's Dream lancée l'année dernière, clairement basée sur ce concept.

Vous pouvez y accéder maintenant - bien qu'il soit beaucoup moins sophistiqué que DALL-E 2.

En fin de compte, nous n'avons aucune idée de l'impact que cette technologie pourrait avoir sur le monde de l'art. Ce que nous do savoir, c'est que les choses deviennent effrayantes, peut-être même une petite vallée étrange. Pour l'instant, OpenAI semble déployer ses produits de manière responsable - et c'est le mieux que nous puissions espérer à ce stade précoce.

Accessibilité