Menu Menu

Lumiere de Google génère des vidéos IA réalistes à partir d'invites textuelles

La vidéo IA passe rapidement d'une vallée étrange à un véritable réalisme, et Lumiere de Google est le générateur de texte en vidéo le plus sophistiqué que nous ayons vu à ce jour.

Évoquant un sentiment de crainte – et une forte dose de malaise – Google a récemment montré à quel point la vidéo IA est devenue sophistiquée en quelques années seulement de développement.

De la même manière que les générateurs de texte en image comme Bing Image Creator, DALL-E et Midjourney peuvent créer des images originales à partir d'une invite sur une seule ligne, l'outil 'LumiereL'application peut transformer nos idées les plus folles en vidéos entièrement rendues de cinq secondes.

D'autres exemples de générateurs de texte en vidéo sont déjà disponibles, certes, mais la tentative de Google est la première à vraiment donner une représentation précise du mouvement à un standard proche du CGI.

Il y parvient en établissant un cadre de base et en utilisant son système très vanté STUNet (Space-Time-U-Net) pour déterminer de manière autonome où se trouvent les éléments de l'image qui doivent se déplacer. Une fois sélectionnés, les objets dans ce cadre initial comprennent alors plusieurs couches qui s'intègrent de manière transparente.

https://youtu.be/wxLr02Dz2Sc

Lumiere est capable de générer 80 images par image, contre le maximum précédent de 25 atteint par son concurrent le plus proche, Stable Video Diffusion. Bien que plusieurs premiers résultats publiés par Google aient une touche d'artificialité, le bond en termes de qualité globale depuis son lancement Démo 2022 est stupéfiant.

Au-delà du texte en vidéo, il existe également la génération d'image en vidéo qui donnera vie à une image fixe, la génération stylisée qui peut créer des vidéos dans un style visuel spécifique et un réglage cinématographique capable d'animer une partie spécifique d'un film. image existante – comme de l’eau qui coule, un feu vacillant ou la fumée d’une locomotive, par exemple.

En termes de stratégie de marché, l'arrivée tardive de Lumiere s'inscrit dans la politique du retard à la mode de Google. Depuis la première itération de son outil de langage génératif Barde a échoué L’année dernière, le géant de la technologie a discrètement développé sa vision multimodale de l’IA générative en arrière-plan.

Sa dernière annonce suit de près une présentation du modèle linguistique Gemini de Google, qui devrait constituer un défi tardif pour la couronne de ChatGPT en tant que référence du secteur.

Au-delà du buzz commercial autour de l’IA vidéo, il serait négligent d’ignorer le potentiel d’utilisation abusive de cette technologie, car il devient de plus en plus difficile de distinguer les œuvres fictives du contenu réel.

La débâcle en cours impliquant des représentations sexuellement explicites de Taylor Swift et son image utilisant des applications de conversion texte-image pourrait n'être que la pointe de l'iceberg si la conversion texte-vidéo prend un essor similaire.

Google assure qu'il crée des garanties pour garantir une utilisation équitable de Lumiere, mais les auteurs du document n'ont pas ratifié exactement la manière dont les incidents seront évités. Nous sommes impatients de mettre la main sur cette technologie, mais pas si elle ouvre une boîte de Pandore plus grande.

Accessibilité