Wideo oparte na sztucznej inteligencji szybko zmienia się z niesamowitej doliny w prawdziwie realistyczne, a Lumiere firmy Google to najbardziej wyrafinowany generator zamiany tekstu na wideo, jaki do tej pory widzieliśmy.
Wywołując podziw i potężną dawkę niepokoju, firma Google pokazała niedawno, jak wyrafinowane stało się wideo oparte na sztucznej inteligencji w ciągu zaledwie kilku lat rozwoju.
W ten sam sposób, w jaki generatory zamiany tekstu na obraz, takie jak Bing Image Creator, DALL-E i Midjourney, mogą tworzyć oryginalne obrazy z jednowierszowego podpowiedzi, narzędzie Google „Lekki' może zamienić nasze najśmielsze pomysły w w pełni wyrenderowane pięciosekundowe filmy.
To prawda, że dostępne są już inne przykłady generatorów zamiany tekstu na wideo, ale próba Google jest pierwszą, która naprawdę pozwala na dokładne odwzorowanie ruchu na poziomie zbliżonym do standardu CGI.
Osiąga to poprzez ustanowienie ramy podstawowej i użycie jej bardzo reklamowanej STUNet (Space-Time-U-Net) do autonomicznego ustalania, gdzie i w jaki sposób powinny się poruszać elementy obrazu. Po wybraniu obiekty w tej początkowej klatce składają się z kilku odrębnych warstw, które płynnie łączą się ze sobą.
Lumiere jest w stanie wygenerować 80 klatek na obraz w porównaniu do poprzedniego maksimum 25 osiągniętego przez swojego najbliższego konkurenta, Stable Video Diffusion. Chociaż kilka wczesnych wyników opublikowanych przez Google ma w sobie nutę sztuczności, ogólny skok jakościowy nastąpił od tego czasu NIE demo jest oszałamiająca.
Oprócz zamiany tekstu na wideo dostępna jest również generacja obrazu na wideo, która ożywia nieruchomy obraz, generacja stylizowana, która umożliwia tworzenie filmów w określonym stylu wizualnym, oraz ustawienie kinematografii umożliwiające animację określonej części filmu. istniejący obraz – na przykład płynąca woda, migotliwy ogień lub dym z lokomotywy.
Pod względem strategii rynkowej spóźnione pojawienie się Lumiere wpisuje się w modną politykę Google dotyczącą spóźnień. Od wczesnej iteracji narzędzia języka generatywnego Bard upadł w zeszłym roku gigant technologiczny po cichu opracował swoją multimodalną wizję generatywnej sztucznej inteligencji w tle.