Menu Menu

Google Lumiere generuje realistyczne filmy AI na podstawie podpowiedzi tekstowych

Wideo oparte na sztucznej inteligencji szybko zmienia się z niesamowitej doliny w prawdziwie realistyczne, a Lumiere firmy Google to najbardziej wyrafinowany generator zamiany tekstu na wideo, jaki do tej pory widzieliśmy.

Wywołując podziw i potężną dawkę niepokoju, firma Google pokazała niedawno, jak wyrafinowane stało się wideo oparte na sztucznej inteligencji w ciągu zaledwie kilku lat rozwoju.

W ten sam sposób, w jaki generatory zamiany tekstu na obraz, takie jak Bing Image Creator, DALL-E i Midjourney, mogą tworzyć oryginalne obrazy z jednowierszowego podpowiedzi, narzędzie Google „Lekki' może zamienić nasze najśmielsze pomysły w w pełni wyrenderowane pięciosekundowe filmy.

To prawda, że ​​dostępne są już inne przykłady generatorów zamiany tekstu na wideo, ale próba Google jest pierwszą, która naprawdę pozwala na dokładne odwzorowanie ruchu na poziomie zbliżonym do standardu CGI.

Osiąga to poprzez ustanowienie ramy podstawowej i użycie jej bardzo reklamowanej STUNet (Space-Time-U-Net) do autonomicznego ustalania, gdzie i w jaki sposób powinny się poruszać elementy obrazu. Po wybraniu obiekty w tej początkowej klatce składają się z kilku odrębnych warstw, które płynnie łączą się ze sobą.

https://youtu.be/wxLr02Dz2Sc

Lumiere jest w stanie wygenerować 80 klatek na obraz w porównaniu do poprzedniego maksimum 25 osiągniętego przez swojego najbliższego konkurenta, Stable Video Diffusion. Chociaż kilka wczesnych wyników opublikowanych przez Google ma w sobie nutę sztuczności, ogólny skok jakościowy nastąpił od tego czasu NIE demo jest oszałamiająca.

Oprócz zamiany tekstu na wideo dostępna jest również generacja obrazu na wideo, która ożywia nieruchomy obraz, generacja stylizowana, która umożliwia tworzenie filmów w określonym stylu wizualnym, oraz ustawienie kinematografii umożliwiające animację określonej części filmu. istniejący obraz – na przykład płynąca woda, migotliwy ogień lub dym z lokomotywy.

Pod względem strategii rynkowej spóźnione pojawienie się Lumiere wpisuje się w modną politykę Google dotyczącą spóźnień. Od wczesnej iteracji narzędzia języka generatywnego Bard upadł w zeszłym roku gigant technologiczny po cichu opracował swoją multimodalną wizję generatywnej sztucznej inteligencji w tle.

Jego najnowsze ogłoszenie jest następstwem prezentacji modelu językowego Gemini firmy Google, który może stanowić późne wyzwanie dla korony ChatGPT jako punktu odniesienia dla branży.

Wykraczając poza komercyjny szum wokół sztucznej inteligencji wideo, zaniedbaniem byłoby ignorowanie potencjału tej technologii do niewłaściwego wykorzystania, ponieważ coraz trudniej jest odróżnić dzieła fikcyjne od treści rzeczywistych.

Trwająca porażka dotycząca przedstawień o charakterze jednoznacznie seksualnym Taylor Swift a jej podobieństwo za pomocą aplikacji przetwarzających tekst na obraz może być tylko wierzchołkiem góry lodowej, jeśli zamiana tekstu na wideo osiągnie podobną skalę.

Google zapewnia, że ​​tworzy zabezpieczenia zapewniające uczciwe korzystanie z Lumiere, ale autorzy artykułu nie określili dokładnie, w jaki sposób będą zapobiegać incydentom. Bardzo chcielibyśmy położyć ręce na tej technologii, ale nie pod warunkiem, że otworzy ona większą puszkę robaków.

dostępność