Menú Menú

Lumiere de Google genera vídeos realistas con IA a partir de mensajes de texto

Los videos con IA están pasando rápidamente de ser un valle inquietante a ser genuinamente realista, y Lumiere de Google es el generador de texto a video más sofisticado que hemos visto hasta la fecha.

Evocando una sensación de asombro –y una fuerte dosis de inquietud– Google recientemente mostró cuán sofisticado se ha vuelto el vídeo con IA en tan sólo unos pocos años de desarrollo.

De la misma manera que los generadores de texto a imagen como Bing Image Creator, DALL-E y Midjourney pueden crear imágenes originales a partir de un mensaje de una sola línea, Google 'LumiereLa aplicación puede convertir nuestras ideas más descabelladas en vídeos de cinco segundos completamente renderizados.

Otros ejemplos de generadores de texto a video ya están disponibles, por supuesto, pero el intento de Google es el primero en lograr una representación precisa del movimiento a un estándar cercano a CGI.

Lo logra estableciendo un marco base y utilizando su muy promocionado STUNet (Space-Time-U-Net) para establecer de forma autónoma dónde deben moverse los elementos de la imagen. Una vez seleccionados, los objetos dentro de ese marco inicial comprenden varias capas propias que fluyen entre sí a la perfección.

https://youtu.be/wxLr02Dz2Sc

Lumiere es capaz de generar 80 cuadros por imagen en comparación con el máximo anterior de 25 logrado por su competidor más cercano, Stable Video Diffusion. Aunque varios de los primeros resultados publicados por Google tienen un toque de artificialidad, el salto en la calidad general desde su Demo de 2022 es asombroso.

Más allá de la conversión de texto a vídeo, también existe la generación de imagen a vídeo, que dará vida a una imagen fija, la generación estilizada, que puede crear vídeos con un estilo visual específico, y una configuración cinematográfica capaz de animar una parte específica de un imagen existente, como agua que fluye, un fuego parpadeante o humo de la locomotora de un tren, por ejemplo.

En términos de estrategia de mercado, la llegada tardía de Lumiere está en consonancia con la política tardía de moda de Google. Desde la primera versión de su herramienta de lenguaje generativo Bardo fracasó El año pasado, el gigante tecnológico desarrolló silenciosamente su visión multimodal para la IA generativa en segundo plano.

Su último anuncio sigue de cerca una exhibición del modelo de lenguaje Gemini de Google, que se perfila como un desafío tardío para la corona de ChatGPT como punto de referencia para el sector.

Más allá del rumor comercial sobre la IA en vídeo, sería negligente ignorar el potencial de uso indebido de la tecnología, ya que se vuelve más difícil distinguir las obras de ficción del contenido de la vida real.

La actual debacle que involucra representaciones sexualmente explícitas de Taylor Swift y su imagen usando aplicaciones de conversión de texto a imagen podría ser solo la punta del iceberg si la conversión de texto a video despega en una escala similar.

Google asegura que está creando salvaguardas para garantizar el uso justo de Lumiere, pero los autores del artículo no han ratificado exactamente cómo se evitarán los incidentes. Estamos ansiosos por tener en nuestras manos la tecnología, pero no si esto abrirá una lata de gusanos más grande.

Accesibilidad