新的 AI 系统可以根据自然语言描述创建各种逼真和超现实的图像。 它有可能改变游戏规则,但并非没有一些担忧。
算法和人工智能继续在艺术行业掀起波澜。
最新突破来自一个名为 OpenAI 的研究团队,该团队刚刚公布了其 DALL-E 程序的新版本。 该软件是一种文本到图像生成工具,可根据用户输入的描述生成艺术品。
在Instagram上查看此帖子
这种新的人工智能被恰当地称为 DALL-E 2,不会向公众开放,但研究人员可以注册以预览其功能。 OpenAI 表示,它计划最终将其软件提供给第三方应用程序使用——尽管没有关于何时会发生这种情况的消息。
目前,该计划将由经过审查的合作伙伴进行测试。
用户不得上传可能“造成伤害”的生成图像,并且必须披露他们使用人工智能的目的。
DALL-E 2 是如何工作的?
虽然我绝不是编码专家,但我 能够 确认 DALL-E 2 使用预构建的图像库运行。 该算法获得了大量标记图片,然后根据它已经知道的内容创建新的艺术品。
假设您想创建一个老虎在独木舟上的图像。 很奇怪,对吧? 但 DALL-E 2 将搜索其文件以找到“独木舟”和“老虎”的外观,并创建一个令人信服地将两者结合在一起的单件。
在Instagram上查看此帖子
DALL-E 2 基于第一次迭代的 CLIP,一个计算机视觉系统。 OpenAI 表示,这款新软件使用“扩散”来生成图像,其中一幅作品从几个点开始,然后逐渐填充细节。
此过程通过两阶段模型进行。 CLIP 首先将您的文本与其他现有照片和图像进行匹配,然后“解码器”自行生成图片。
上面的视频简要演示了可能的情况,展示了 AI 生成的猫、预先存在的图像的真实编辑版本,以及一个复杂的对象标记系统,让 DALL-E 2 能够理解你的提示。 这真是令人印象深刻的东西。
有趣的是,OpenAI 强调仍然存在需要解决的错误和问题。
在Instagram上查看此帖子
错误标记的对象可能会导致算法生成与提供的文本描述不符的不正确图片。 例如,如果在其编码中预先存在一张标有“飞机”的汽车照片,那么这可能会导致发电机完全偏离轨道,送回一辆宝马而不是波音。
此外,在 AI 标记并了解相关对象是什么之前,不可能提供非常具体的提示。
在算法改进之前,询问城镇或稀有动物可能会导致图像不稳定、不正确。 请记住,这只是 DALL-E 的第二次迭代,因此我们无疑会在未来看到更多令人费解的演示。