O vídeo AI está mudando rapidamente de um vale misterioso para genuinamente realista, e o Lumiere do Google é o gerador de texto para vídeo mais sofisticado que já vimos até agora.
Evocando um sentimento de admiração – e uma grande dose de desconforto – o Google exibiu recentemente como o vídeo de IA se tornou sofisticado em apenas alguns anos de desenvolvimento.
Da mesma forma que geradores de texto para imagem como Bing Image Creator, DALL-E e Midjourney podem criar imagens originais a partir de um prompt de linha única, o 'Lumiere' pode transformar nossas ideias mais loucas em vídeos de cinco segundos totalmente renderizados.
Outros exemplos de geradores de texto para vídeo já estão disponíveis, é verdade, mas a tentativa do Google é a primeira a realmente conseguir uma representação precisa do movimento em um padrão próximo ao CGI.
Ele consegue isso estabelecendo uma estrutura de base e usando seu altamente elogiado STUNet (Space-Time-U-Net) tecnologia para estabelecer de forma autônoma onde estão e como os itens da imagem devem se mover. Uma vez selecionados, os objetos dentro desse quadro inicial compreendem várias camadas próprias que fluem umas para as outras perfeitamente.
O Lumiere é capaz de gerar 80 quadros por imagem em comparação com o máximo anterior de 25 alcançado por seu concorrente mais próximo, Stable Video Diffusion. Embora vários resultados iniciais divulgados pelo Google tenham um toque de artificialidade, o salto na qualidade geral desde seu lançamento NÃO é uma demonstração é impressionante.
Além do texto para vídeo, há também a geração de imagem para vídeo, que dará vida a uma imagem estática, a geração estilizada, que pode criar vídeos em um estilo visual específico, e um cenário cinematográfico capaz de animar uma parte específica de um imagem existente – como água corrente, um fogo bruxuleante ou fumaça de uma locomotiva de trem, por exemplo.
Em termos de estratégia de mercado, a chegada tardia do Lumière está em linha com a política tardia do Google. Desde a iteração inicial de sua ferramenta de linguagem generativa Bardo fracassou no ano passado, a gigante tecnológica desenvolveu discretamente a sua visão multimodal para IA generativa em segundo plano.