谷歌的 Lumiere 根据文本提示生成逼真的 AI 视频

人工智能视频正在迅速从恐怖谷转向真正的现实，而谷歌的 Lumiere 是我们迄今为止见过的最复杂的文本到视频生成器。

谷歌最近展示了人工智能视频在短短几年的发展中变得多么复杂，这唤起了人们的敬畏感和极大的不安。

就像 Bing Image Creator、DALL-E 和 Midjourney 等文本到图像生成器可以通过单行提示创建原始图像一样，Google 的“卢米埃尔'应用程序可以将我们最疯狂的想法变成完全渲染的五秒视频。

当然，文本到视频生成器的其他示例已经可用，但谷歌的尝试是第一个真正将运动准确描绘到接近 CGI 标准的尝试。

它通过建立一个基础框架并利用其备受推崇的技术来实现这一目标科技大学网 (Space-Time-U-Net) 技术可自主确定图像中的物体应如何移动。一旦选择，初始框架内的对象就会包含它们自己的多个层，这些层彼此无缝地流动。

https://youtu.be/wxLr02Dz2Sc

Lumiere 能够为每张图像生成 80 帧，而之前其最接近的竞争对手 Stable Video Diffusion 最多只能生成 25 帧。尽管谷歌发布的几项早期结果有些做作，但自发布以来整体质量的飞跃 2022演示是惊人的。

除了文本到视频之外，还有图像到视频生成功能，可以使静态图片栩栩如生；风格化生成功能，可以以特定的视觉风格创建视频；以及电影摄影设置，可以将动画的特定部分制作成动画。现有的图像——例如流水、闪烁的火焰或火车引擎冒出的烟雾。

从市场策略上来说，Lumiere的迟到符合Google一贯的迟到政策。自从其生成语言工具的早期迭代以来吟游诗人失败了去年，这家科技巨头悄然开发了其生成人工智能的多模式愿景。

https://youtu.be/jV1vkHv4zq8

Google's newest and most capable AI | Gemini (https://youtu.be/jV1vkHv4zq8)

其最新公告紧随谷歌 Gemini 语言模型的展示之后，该模型有望对 ChatGPT 作为该行业基准的桂冠发起挑战。

除了视频人工智能的商业热潮之外，忽视该技术被滥用的可能性是一种失职，因为区分虚构作品和现实生活内容变得越来越困难。

涉及露骨色情描述的持续崩溃泰勒斯威夫特如果文本转视频应用程序以类似的规模发展，她使用文本转图像应用程序的相似之处可能只是冰山一角。

谷歌保证正在制定保障措施以确保 Lumiere 的公平使用，但该论文的作者尚未确切批准如何防止事件发生。我们渴望掌握这项技术，但如果它会带来更大的麻烦，我们就不会这么做。

更多来自线程。

信用：不飞溅

另类

解释睡眠旅游的兴起

这已迅速成为健康行业的最大趋势之一，越来越多的旅行者放弃了充满活动的行程，转而选择枕头菜单和早睡。假期可以有很多事情；对于一些人来说，它涉及探索、冒险和尝试当地美食。对于其他人来说，这是一个坐下来放松的机会，除了在泳池边休息一两周外什么都不做......

By 索非亚·菲利普斯（Sofia Phillips）伦敦，英国

信用：Thred

媒体

Netflix 未公开的人工智能使用引发了关于媒体操纵的争论

Netflix 因在一部新的真实犯罪纪录片中加入未公开的人工智能图像而受到批评。这种强烈反对引发了围绕媒体操纵的重要对话。无论喜欢它、害怕它还是厌恶它，人工智能现在已经成为我们日常生活的一部分。从教育到娱乐，人工智能只会不断发展，几乎影响我们与媒体互动的方方面面。但这些变化需要界限。两个人工智能...

By 弗洛·贝林格英国布莱顿

信用：Thred

另类

“仿生眼”解开了柏拉图最后安息之地之谜

意大利研究员格拉齐亚诺·拉诺基亚（Graziano Ranocchia）可能最终解开了柏拉图最后安息之地之谜。人工智能驱动的“仿生眼”扫描了公元前 2,000 年左右书写的 348 年前的碳化卷轴，精确定位了雅典的具体位置。具有讽刺意味的是，世界上最伟大的哲学家之一的长眠之地之谜可能刚刚被机器解开了。柏拉图的埋葬可以说是希腊哲学最受尊敬的基础思想家......