菜单 菜单

谷歌的 Lumiere 根据文本提示生成逼真的人工智能视频

人工智能视频正在迅速从恐怖谷转向真正的现实,而谷歌的 Lumiere 是我们迄今为止见过的最复杂的文本到视频生成器。

谷歌最近展示了人工智能视频在短短几年的发展中变得多么复杂,这唤起了人们的敬畏感和极大的不安。

就像 Bing Image Creator、DALL-E 和 Midjourney 等文本到图像生成器可以通过单行提示创建原始图像一样,Google 的“卢米埃尔'应用程序可以将我们最疯狂的想法变成完全渲染的五秒视频。

当然,文本到视频生成器的其他示例已经可用,但谷歌的尝试是第一个真正将运动准确描绘到接近 CGI 标准的尝试。

它通过建立一个基础框架并利用其备受推崇的技术来实现这一目标 科技大学网 (Space-Time-U-Net) 技术可自主确定图像中的物体应如何移动。一旦选择,初始框架内的对象就会包含它们自己的多个层,这些层彼此无缝地流动。

https://youtu.be/wxLr02Dz2Sc

Lumiere 能够为每张图像生成 80 帧,而之前其最接近的竞争对手 Stable Video Diffusion 最多只能生成 25 帧。尽管谷歌发布的几项早期结果有些做作,但自发布以来整体质量的飞跃 2022演示 是惊人的。

除了文本到视频之外,还有图像到视频生成功能,可以使静态图片栩栩如生;风格化生成功能,可以以特定的视觉风格创建视频;以及电影摄影设置,可以将动画的特定部分制作成动画。现有的图像——例如流水、闪烁的火焰或火车引擎冒出的烟雾。

从市场策略上来说,Lumiere的迟到符合Google一贯的迟到政策。自从其生成语言工具的早期迭代以来 吟游诗人失败了 去年,这家科技巨头悄然开发了其生成人工智能的多模式愿景。

其最新公告紧随谷歌 Gemini 语言模型的展示之后,该模型有望对 ChatGPT 作为该行业基准的桂冠发起挑战。

除了视频人工智能的商业热潮之外,忽视该技术被滥用的可能性是一种失职,因为区分虚构作品和现实生活内容变得越来越困难。

涉及露骨色情描述的持续崩溃 泰勒斯威夫特 如果文本转视频应用程序以类似的规模发展,她使用文本转图像应用程序的相似之处可能只是冰山一角。

谷歌保证正在制定保障措施以确保 Lumiere 的公平使用,但该论文的作者尚未确切批准如何防止事件发生。我们渴望掌握这项技术,但如果它会带来更大的麻烦,我们就不会这么做。

无障碍