Menú Menú

El nuevo AI DALL-E 2 crea imágenes a partir de mensajes de texto

Un nuevo sistema de inteligencia artificial puede crear una variedad de imágenes tanto realistas como surrealistas a partir de descripciones en lenguaje natural. Tiene el potencial de cambiar el juego, pero no sin algunas preocupaciones.

Los algoritmos y la IA continúan haciendo olas en la industria del arte.

El último avance proviene de un equipo de investigación llamado OpenAI, que acaba de presentar una nueva versión de su programa DALL-E. Este software es una herramienta de generación de texto a imagen que produce ilustraciones basadas en una descripción ingresada por el usuario.

Acertadamente llamada DALL-E 2, esta nueva IA no estará disponible para el público, pero los investigadores pueden registrarse para obtener una vista previa de sus capacidades. OpenAI dice que planea hacer que su software esté disponible para su uso en aplicaciones de terceros eventualmente, aunque no se sabe cuándo sucederá.

Por ahora, el programa será probado por socios examinados.

Los usuarios no pueden cargar imágenes generadas que puedan "causar daño" y deben revelar para qué están usando la IA.


¿Cómo funciona DALL-E 2?

Si bien no soy de ninguna manera un experto en codificación, podemos confirme que DALL-E 2 funciona con una biblioteca de imágenes preconstruida. El algoritmo recibe una gran cantidad de imágenes etiquetadas y luego crea nuevas ilustraciones basadas en lo que ya sabe.

Digamos que desea crear una imagen de un tigre en una canoa. Extraño, ¿verdad? Pero DALL-E 2 buscará en sus archivos para encontrar el aspecto de una 'canoa' y un 'tigre', y creará una sola pieza que combine de manera convincente ambos.

DALL-E 2 se basa en el CLIP de la primera iteración, un sistema de visión por computadora. OpenAI dice que este nuevo software genera imágenes usando 'difusión', por lo que una pieza comienza como unos pocos puntos y se completa gradualmente con detalles.

Este proceso ocurre a través de un modelo de dos etapas. CLIP primero compara su texto con otras fotografías e imágenes existentes, luego un 'descodificador' genera la imagen en sí.

El video anterior brinda una breve demostración de lo que es posible, mostrando gatos generados por IA, versiones editadas de manera realista de imágenes preexistentes y un complejo sistema de etiquetado de objetos que permite que DALL-E 2 entienda sus indicaciones. Es algo realmente impresionante.

Curiosamente, OpenAI enfatiza que todavía hay errores y problemas por resolver.

Los objetos que están mal etiquetados pueden hacer que el algoritmo produzca imágenes incorrectas que no se alinean con la descripción de texto proporcionada. Si dentro de su codificación tiene una foto preexistente de un automóvil etiquetado como 'avión', por ejemplo, esto podría desviar completamente el curso del generador, enviando de vuelta un BMW en lugar de un Boeing.

Además, las indicaciones muy específicas no son posibles hasta que la IA haya etiquetado y aprendido cuáles son los objetos relevantes.

Preguntar por una ciudad o una especie rara de animal puede dar como resultado imágenes torcidas e incorrectas hasta que se mejore el algoritmo. Tenga en cuenta que esta es solo la segunda iteración de DALL-E, por lo que sin duda veremos demostraciones aún más alucinantes en el futuro.


¿Por qué esto podría causar problemas a los artistas?

Después de leer detenidamente la obra de arte creada por DALL-E 2, es difícil no sentirse emocionado por las posibilidades de la tecnología.

Sin embargo, debemos ser conscientes de los peligros potenciales. Los artistas ya tienen muchas dificultades para ganar dinero por su trabajo en la era de Internet, de ahí la razón inicial de las NFT, y una nueva herramienta de imagen basada en algoritmos podría dejar fuera del negocio a muchos ilustradores digitales de poca monta.

También será mucho más difícil verificar la autenticidad de una imagen o pintura en línea y puede devaluar el trabajo de seres humanos genuinos. La acuñación de imágenes instantáneas podría convertirse en una posibilidad, creando un mercado NFT aún más explotador.

Si todo el mundo puede hacer cualquier cosa al instante, ¿las ilustraciones y las pinturas pierden todo su valor comercial? ¿Se convierte el arte en sí mismo simplemente en otra aplicación o herramienta para que cualquiera la use?

Hay grandes preguntas existenciales en cuanto a las implicaciones de un software tan genuinamente innovador, muchas de las cuales no tenemos las respuestas.

Para crédito de OpenAI, parece muy consciente de los peligros. Dice que DALL-E 2 nunca estará completamente disponible para el público, y solo se implementará lentamente para investigadores y socios de confianza en función de los comentarios. Los usuarios deberán decir por qué están usando el software y no pueden crear imágenes que sean obscenas o dañinas.

Quiere asegurarse de que la desinformación o las imágenes falsificadas no terminen causando más estragos en nuestros sistemas políticos y también en el discurso en línea.

Estas intenciones pueden ser lo suficientemente sólidas, pero ¿quién puede decir que otros codificadores con menos buenas intenciones no copiarán simplemente el trabajo de OpenAI? Ya vimos el lanzamiento de una aplicación llamada Wombo's Dream el año pasado, claramente basada en este concepto.

puedes acceder ahora – aunque es mucho menos sofisticado que DALL-E 2.

En última instancia, no tenemos idea de cómo esta tecnología podría afectar el mundo del arte. lo que hacemoso Lo que sé es que las cosas se están poniendo aterradoramente impresionantes, tal vez incluso un pequeño valle inquietante. Por ahora, OpenAI parece estar implementando sus productos de manera responsable, y eso es lo mejor que podemos esperar en esta etapa inicial.

Accesibilidad