Un nuevo sistema de inteligencia artificial puede crear una variedad de imágenes tanto realistas como surrealistas a partir de descripciones en lenguaje natural. Tiene el potencial de cambiar el juego, pero no sin algunas preocupaciones.
Los algoritmos y la IA continúan haciendo olas en la industria del arte.
El último avance proviene de un equipo de investigación llamado OpenAI, que acaba de presentar una nueva versión de su programa DALL-E. Este software es una herramienta de generación de texto a imagen que produce ilustraciones basadas en una descripción ingresada por el usuario.
Ver esta publicación en Instagram
Acertadamente llamada DALL-E 2, esta nueva IA no estará disponible para el público, pero los investigadores pueden registrarse para obtener una vista previa de sus capacidades. OpenAI dice que planea hacer que su software esté disponible para su uso en aplicaciones de terceros eventualmente, aunque no se sabe cuándo sucederá.
Por ahora, el programa será probado por socios examinados.
Los usuarios no pueden cargar imágenes generadas que puedan "causar daño" y deben revelar para qué están usando la IA.
¿Cómo funciona DALL-E 2?
Si bien no soy de ninguna manera un experto en codificación, podemos confirme que DALL-E 2 funciona con una biblioteca de imágenes preconstruida. El algoritmo recibe una gran cantidad de imágenes etiquetadas y luego crea nuevas ilustraciones basadas en lo que ya sabe.
Digamos que desea crear una imagen de un tigre en una canoa. Extraño, ¿verdad? Pero DALL-E 2 buscará en sus archivos para encontrar el aspecto de una 'canoa' y un 'tigre', y creará una sola pieza que combine de manera convincente ambos.
Ver esta publicación en Instagram
DALL-E 2 se basa en el CLIP de la primera iteración, un sistema de visión por computadora. OpenAI dice que este nuevo software genera imágenes usando 'difusión', por lo que una pieza comienza como unos pocos puntos y se completa gradualmente con detalles.
Este proceso ocurre a través de un modelo de dos etapas. CLIP primero compara su texto con otras fotografías e imágenes existentes, luego un 'descodificador' genera la imagen en sí.
El video anterior brinda una breve demostración de lo que es posible, mostrando gatos generados por IA, versiones editadas de manera realista de imágenes preexistentes y un complejo sistema de etiquetado de objetos que permite que DALL-E 2 entienda sus indicaciones. Es algo realmente impresionante.
Curiosamente, OpenAI enfatiza que todavía hay errores y problemas por resolver.
Ver esta publicación en Instagram
Los objetos que están mal etiquetados pueden hacer que el algoritmo produzca imágenes incorrectas que no se alinean con la descripción de texto proporcionada. Si dentro de su codificación tiene una foto preexistente de un automóvil etiquetado como 'avión', por ejemplo, esto podría desviar completamente el curso del generador, enviando de vuelta un BMW en lugar de un Boeing.
Además, las indicaciones muy específicas no son posibles hasta que la IA haya etiquetado y aprendido cuáles son los objetos relevantes.
Preguntar por una ciudad o una especie rara de animal puede dar como resultado imágenes torcidas e incorrectas hasta que se mejore el algoritmo. Tenga en cuenta que esta es solo la segunda iteración de DALL-E, por lo que sin duda veremos demostraciones aún más alucinantes en el futuro.