Меню Меню

Google Lumiere генерирует реалистичные видео с искусственным интеллектом из текстовых подсказок

Видео с использованием искусственного интеллекта быстро превращается из жуткой долины в по-настоящему реалистичное, а Google Lumiere — самый совершенный генератор преобразования текста в видео, который мы когда-либо видели.

Вызвав чувство трепета – и изрядную дозу беспокойства – Google недавно продемонстрировал, насколько сложным стало видео с искусственным интеллектом всего за несколько лет разработки.

Точно так же, как генераторы текста в изображение, такие как Bing Image Creator, DALL-E и Midjourney, могут создавать оригинальные изображения из однострочной подсказки, GoogleЛюмьерПриложение может превратить наши самые смелые идеи в полностью визуализированные пятисекундные видеоролики.

Разумеется, другие примеры генераторов текста в видео уже доступны, но попытка Google является первой попыткой действительно добиться точного изображения движения, близкого к стандарту CGI.

Это достигается за счет создания базовой рамы и использования широко разрекламированной STUNet (Space-Time-U-Net) технология, позволяющая автономно определять, где и как должны двигаться объекты на изображении. После выбора объекты в этом начальном кадре состоят из нескольких собственных слоев, которые плавно перетекают друг в друга.

https://youtu.be/wxLr02Dz2Sc

Lumiere способен генерировать 80 кадров на изображение по сравнению с предыдущим максимумом в 25, достигнутым его ближайшим конкурентом Stable Video Diffusion. Хотя некоторые ранние результаты, опубликованные Google, имеют оттенок искусственности, скачок в общем качестве с момента их публикации Демоверсия 2022 ошеломляет.

Помимо преобразования текста в видео, существует также генерация изображения в видео, которая оживляет неподвижное изображение, генерация стилизации, которая может создавать видео в определенном визуальном стиле, и настройка кинематографа, позволяющая анимировать определенную часть видео. существующий образ – например, текущая вода, мерцающий огонь или дым из локомотива поезда.

С точки зрения рыночной стратегии, позднее появление Люмьера соответствует модно поздней политике Google. С момента появления первой версии инструмента генеративного языка Бард провалился В прошлом году технологический гигант незаметно разработал свое мультимодальное видение генеративного искусственного интеллекта.

Его последнее объявление последовало за демонстрацией языковой модели Gemini от Google, которая, как ожидается, бросит вызов ChatGPT за звание эталона для сектора.

Если выйти за рамки коммерческого ажиотажа вокруг искусственного интеллекта в видео, было бы упущением игнорировать потенциальную возможность злоупотребления этой технологией, поскольку становится все труднее отличить художественные произведения от контента из реальной жизни.

Продолжающийся разгром, связанный с откровенно сексуальными изображениями Тэйлор Свифт и ее подобие использования приложений для преобразования текста в изображение может быть лишь верхушкой айсберга, если преобразование текста в видео будет иметь такой же масштаб.

Google уверяет, что создает гарантии для обеспечения добросовестного использования Lumiere, но авторы документа не уточнили, как именно будут предотвращаться инциденты. Мы очень хотим заполучить эту технологию, но только если она откроет большую банку с червями.

Универсальный доступ