新 AI DALL-E 2 根据文本提示创建图像

文化塑造
设计
14 年 2022 月 XNUMX 日发布

学分：OpenAI

By 查理·库姆斯

伦敦，英国

2 能源 + 添加能量

0评论

新的 AI 系统可以根据自然语言描述创建各种逼真和超现实的图像。它有可能改变游戏规则，但并非没有一些担忧。

算法和人工智能继续在艺术行业掀起波澜。

最新突破来自一个名为 OpenAI 的研究团队，该团队刚刚公布了其 DALL-E 程序的新版本。该软件是一种文本到图像生成工具，可根据用户输入的描述生成艺术品。

在Instagram上查看此帖子

DALL·E 由 OpenAI (@openaidalle) 分享的帖子

这种新的人工智能被恰当地称为 DALL-E 2，不会向公众开放，但研究人员可以注册以预览其功能。 OpenAI 表示，它计划最终将其软件提供给第三方应用程序使用——尽管没有关于何时会发生这种情况的消息。

目前，该计划将由经过审查的合作伙伴进行测试。

用户不得上传可能“造成伤害”的生成图像，并且必须披露他们使用人工智能的目的。

https://www.youtube.com/watch?v=alJdw4JDJ4o&ab_channel=Fireship

DALL-E is coming… World-changing AI image generator (https://www.youtube.com/watch?v=alJdw4JDJ4o&ab_channel=Fireship)

DALL-E 2 是如何工作的？

虽然我绝不是编码专家，但我能够确认 DALL-E 2 使用预构建的图像库运行。该算法获得了大量标记图片，然后根据它已经知道的内容创建新的艺术品。

假设您想创建一个老虎在独木舟上的图像。很奇怪，对吧？但 DALL-E 2 将搜索其文件以找到“独木舟”和“老虎”的外观，并创建一个令人信服地将两者结合在一起的单件。

在Instagram上查看此帖子

DALL·E 由 OpenAI (@openaidalle) 分享的帖子

DALL-E 2 基于第一次迭代的 CLIP，一个计算机视觉系统。 OpenAI 表示，这款新软件使用“扩散”来生成图像，其中一幅作品从几个点开始，然后逐渐填充细节。

此过程通过两阶段模型进行。 CLIP 首先将您的文本与其他现有照片和图像进行匹配，然后“解码器”自行生成图片。

https://www.youtube.com/watch?v=qTgPSKKjfVg&ab_channel=OpenAI

DALL·E 2 Explained (https://www.youtube.com/watch?v=qTgPSKKjfVg&ab_channel=OpenAI)

上面的视频简要演示了可能的情况，展示了 AI 生成的猫、预先存在的图像的真实编辑版本，以及一个复杂的对象标记系统，让 DALL-E 2 能够理解你的提示。这真是令人印象深刻的东西。

有趣的是，OpenAI 强调仍然存在需要解决的错误和问题。

在Instagram上查看此帖子

DALL·E 由 OpenAI (@openaidalle) 分享的帖子

错误标记的对象可能会导致算法生成与提供的文本描述不符的不正确图片。例如，如果在其编码中预先存在一张标有“飞机”的汽车照片，那么这可能会导致发电机完全偏离轨道，送回一辆宝马而不是波音。

此外，在 AI 标记并了解相关对象是什么之前，不可能提供非常具体的提示。

在算法改进之前，询问城镇或稀有动物可能会导致图像不稳定、不正确。请记住，这只是 DALL-E 的第二次迭代，因此我们无疑会在未来看到更多令人费解的演示。

https://www.youtube.com/watch?v=rdGVbPI42sA&ab_channel=What%27sAI

How does DALL·E 2 work? (OpenAI text-to-image model explained) (https://www.youtube.com/watch?v=rdGVbPI42sA&ab_channel=What%27sAI)

为什么这会给艺术家带来问题？

仔细阅读 DALL-E 2 创作的艺术作品后，很难不为这项技术的可能性感到兴奋。

但是，我们应该注意潜在的陷阱。在互联网时代，艺术家们已经很难为他们的作品赚钱——这就是 NFT 的最初原因——而一种新的基于算法的图像工具可能会让许多小型数字插画师破产。

在Instagram上查看此帖子

DALL·E 由 OpenAI (@openaidalle) 分享的帖子

在线验证图像或绘画的真实性也将变得更加困难，并且可能会贬低真实人类的作品。即时图像铸造可能成为一种可能性，创造一个更具剥削性的 NFT 市场。

如果每个人都可以立即做出任何东西，插图和绘画是否就失去了所有的商业价值？艺术本身是否成为任何人都可以使用的另一种应用程序或工具？

在Instagram上查看此帖子

DALL·E 由 OpenAI (@openaidalle) 分享的帖子

对于这种真正具有开创性的软件的影响，存在一些重大的存在问题，其中许多问题我们没有答案。

对于 OpenAI 来说，似乎非常清楚危险. 它表示 DALL-E 2 永远不会完全向公众开放，只会根据反馈慢慢向值得信赖的研究人员和合作伙伴推出。用户需要说明他们使用该软件的原因，并且不能制作任何淫秽或有害的图像。

它希望确保错误信息或深度伪造的图像最终也不会对我们的政治体系和在线话语造成进一步的破坏。

在Instagram上查看此帖子

DALL·E 由 OpenAI (@openaidalle) 分享的帖子

这些意图可能足够合理，但谁能说其他不太善意的编码人员不会简单地复制 OpenAI 的工作？我们已经看到去年推出了一款名为 Wombo's Dream 的应用程序，显然是基于这个概念。

你可以访问它现在可以做些什么 – 尽管它远没有 DALL-E 2 复杂。

最终，我们不知道这项技术将如何影响艺术界。我们做什么o 知道的是，事情变得令人印象深刻，甚至可能有点恐怖谷。目前，OpenAI 似乎正在负责任地推出其产品——这是我们在早期阶段所能期望的最好结果。

查理·库姆斯

主编辑伦敦，英国

我是 Thred 的主编 Charlie（他/他）。我在伯明翰大学学习英语，作为一名音乐和游戏爱好者，我是流行文化的书呆子。你可以在星期四找到我策划播放列表、设计文章标题图片和啜饮苹果酒。跟着我 Twitter, LinkedIn 并通过以下方式给我一些想法/反馈 邮箱地址.

更多来自线程。

信用：Thred

另类

“仿生眼”解开了柏拉图最后安息之地之谜

意大利研究员格拉齐亚诺·拉诺基亚（Graziano Ranocchia）可能最终解开了柏拉图最后安息之地之谜。人工智能驱动的“仿生眼”扫描了公元前 2,000 年左右书写的 348 年前的碳化卷轴，精确定位了雅典的具体位置。具有讽刺意味的是，世界上最伟大的哲学家之一的长眠之地之谜可能刚刚被机器解开了。柏拉图的埋葬可以说是希腊哲学最受尊敬的基础思想家......