人工智能视频正在迅速从恐怖谷转向真正的现实,而谷歌的 Lumiere 是我们迄今为止见过的最复杂的文本到视频生成器。
谷歌最近展示了人工智能视频在短短几年的发展中变得多么复杂,这唤起了人们的敬畏感和极大的不安。
就像 Bing Image Creator、DALL-E 和 Midjourney 等文本到图像生成器可以通过单行提示创建原始图像一样,Google 的“卢米埃尔'应用程序可以将我们最疯狂的想法变成完全渲染的五秒视频。
当然,文本到视频生成器的其他示例已经可用,但谷歌的尝试是第一个真正将运动准确描绘到接近 CGI 标准的尝试。
它通过建立一个基础框架并利用其备受推崇的技术来实现这一目标 科技大学网 (Space-Time-U-Net) 技术可自主确定图像中的物体应如何移动。一旦选择,初始框架内的对象就会包含它们自己的多个层,这些层彼此无缝地流动。
Lumiere 能够为每张图像生成 80 帧,而之前其最接近的竞争对手 Stable Video Diffusion 最多只能生成 25 帧。尽管谷歌发布的几项早期结果有些做作,但自发布以来整体质量的飞跃 2022演示 是惊人的。
除了文本到视频之外,还有图像到视频生成功能,可以使静态图片栩栩如生;风格化生成功能,可以以特定的视觉风格创建视频;以及电影摄影设置,可以将动画的特定部分制作成动画。现有的图像——例如流水、闪烁的火焰或火车引擎冒出的烟雾。
从市场策略上来说,Lumiere的迟到符合Google一贯的迟到政策。自从其生成语言工具的早期迭代以来 吟游诗人失败了 去年,这家科技巨头悄然开发了其生成人工智能的多模式愿景。