Menu Menu

Lumiere do Google gera vídeos realistas de IA a partir de prompts de texto

O vídeo AI está mudando rapidamente de um vale misterioso para genuinamente realista, e o Lumiere do Google é o gerador de texto para vídeo mais sofisticado que já vimos até agora.

Evocando um sentimento de admiração – e uma grande dose de desconforto – o Google exibiu recentemente como o vídeo de IA se tornou sofisticado em apenas alguns anos de desenvolvimento.

Da mesma forma que geradores de texto para imagem como Bing Image Creator, DALL-E e Midjourney podem criar imagens originais a partir de um prompt de linha única, o 'Lumiere' pode transformar nossas ideias mais loucas em vídeos de cinco segundos totalmente renderizados.

Outros exemplos de geradores de texto para vídeo já estão disponíveis, é verdade, mas a tentativa do Google é a primeira a realmente conseguir uma representação precisa do movimento em um padrão próximo ao CGI.

Ele consegue isso estabelecendo uma estrutura de base e usando seu altamente elogiado STUNet (Space-Time-U-Net) tecnologia para estabelecer de forma autônoma onde estão e como os itens da imagem devem se mover. Uma vez selecionados, os objetos dentro desse quadro inicial compreendem várias camadas próprias que fluem umas para as outras perfeitamente.

https://youtu.be/wxLr02Dz2Sc

O Lumiere é capaz de gerar 80 quadros por imagem em comparação com o máximo anterior de 25 alcançado por seu concorrente mais próximo, Stable Video Diffusion. Embora vários resultados iniciais divulgados pelo Google tenham um toque de artificialidade, o salto na qualidade geral desde seu lançamento NÃO é uma demonstração é impressionante.

Além do texto para vídeo, há também a geração de imagem para vídeo, que dará vida a uma imagem estática, a geração estilizada, que pode criar vídeos em um estilo visual específico, e um cenário cinematográfico capaz de animar uma parte específica de um imagem existente – como água corrente, um fogo bruxuleante ou fumaça de uma locomotiva de trem, por exemplo.

Em termos de estratégia de mercado, a chegada tardia do Lumière está em linha com a política tardia do Google. Desde a iteração inicial de sua ferramenta de linguagem generativa Bardo fracassou no ano passado, a gigante tecnológica desenvolveu discretamente a sua visão multimodal para IA generativa em segundo plano.

Seu último anúncio segue de perto uma vitrine do modelo de linguagem Gemini do Google, que deverá representar um desafio tardio à coroa do ChatGPT como referência para o setor.

Olhando além do burburinho comercial da IA ​​de vídeo, seria negligente ignorar o potencial de uso indevido da tecnologia, à medida que se torna mais difícil distinguir obras de ficção de conteúdo da vida real.

O desastre contínuo envolvendo representações sexualmente explícitas de Taylor Swift e sua semelhança usando aplicativos de texto para imagem pode ser apenas a ponta do iceberg se o texto para vídeo decolar em uma escala semelhante.

O Google garante que está criando salvaguardas para garantir o uso justo do Lumiere, mas os autores do artigo não ratificaram exatamente como os incidentes serão evitados. Estamos ansiosos para colocar as mãos na tecnologia, mas não se ela abrir uma lata maior de minhocas.

Acessibilidade