Видео с использованием искусственного интеллекта быстро превращается из жуткой долины в по-настоящему реалистичное, а Google Lumiere — самый совершенный генератор преобразования текста в видео, который мы когда-либо видели.
Вызвав чувство трепета – и изрядную дозу беспокойства – Google недавно продемонстрировал, насколько сложным стало видео с искусственным интеллектом всего за несколько лет разработки.
Точно так же, как генераторы текста в изображение, такие как Bing Image Creator, DALL-E и Midjourney, могут создавать оригинальные изображения из однострочной подсказки, GoogleЛюмьерПриложение может превратить наши самые смелые идеи в полностью визуализированные пятисекундные видеоролики.
Разумеется, другие примеры генераторов текста в видео уже доступны, но попытка Google является первой попыткой действительно добиться точного изображения движения, близкого к стандарту CGI.
Это достигается за счет создания базовой рамы и использования широко разрекламированной STUNet (Space-Time-U-Net) технология, позволяющая автономно определять, где и как должны двигаться объекты на изображении. После выбора объекты в этом начальном кадре состоят из нескольких собственных слоев, которые плавно перетекают друг в друга.
Lumiere способен генерировать 80 кадров на изображение по сравнению с предыдущим максимумом в 25, достигнутым его ближайшим конкурентом Stable Video Diffusion. Хотя некоторые ранние результаты, опубликованные Google, имеют оттенок искусственности, скачок в общем качестве с момента их публикации Демоверсия 2022 ошеломляет.
Помимо преобразования текста в видео, существует также генерация изображения в видео, которая оживляет неподвижное изображение, генерация стилизации, которая может создавать видео в определенном визуальном стиле, и настройка кинематографа, позволяющая анимировать определенную часть видео. существующий образ – например, текущая вода, мерцающий огонь или дым из локомотива поезда.
С точки зрения рыночной стратегии, позднее появление Люмьера соответствует модно поздней политике Google. С момента появления первой версии инструмента генеративного языка Бард провалился В прошлом году технологический гигант незаметно разработал свое мультимодальное видение генеративного искусственного интеллекта.