菜单 菜单

Reddit 签署其用户数据来训练未命名的人工智能模型

随着用户数据成为越来越热门的商品,据报道,一家未透露姓名的人工智能公司正计划斥资 60 万美元抢占 Reddit,用于人工智能培训目的。我们应该担心吗?

数十年的 Reddit 漫谈可能成为下一代人工智能模型的燃料。

据报道,这家自称为“互联网头版”的网站已经与 内容许可协议 与一家未具名的人工智能公司合作。理论上,这家公司现在有权以 60 万美元的酷价使用 Reddit 上发布的任何内容来训练其人工智能模型。

来自最受欢迎的 Reddit 子版块、潜伏者和可疑主题的残渣的数以百万计的不间断帖子将成为硅谷这个未公开的“大玩家”的滚动的年度商品。

这项令人惊讶的交易是在 Reddit 发布几个月后才达成的 威胁 如果无法就其数据交易达成正式协议,将切断谷歌和必应的搜索爬虫。一位消息人士告诉 “华盛顿邮报” 当时该平台无需搜索即可“生存”。也许当前的人工智能交易当时就在酝酿之中?

尽管 Reddit 的年收入在 20 年增长了 2023%,但大约是 还差200亿美元 两年前设定的 1 亿美元目标。即将到来的人工智能协议,伴随着一个开放的机会 公共投资 然而,下个月 Reddit 的准备工作可能会远远超过这个数字。

之后 动荡的几年从财务角度来看,这种数据权衡对于 Reddit 来说非常有意义。然而,它对消费者到底意味着什么,以及人工智能一直以来模糊的道德规范仍然存在争议。

在现代世界中,我们的用户数据绝不是私人的,这是最保守的秘密之一。记得最近 看门狗研究 Meta 中显示 48,000 家公司在未经同意的情况下向单个用户发送了平台数据?

直到最近,大多数人工智能公司在没有任何经过验证的情况下使用开放网络来训练他们的模型,但 2023 年一系列备受瞩目的案例似乎正在改变这一格局。

OpenAI 的狡辩 “纽约时报”苹果的谈判 主要新闻合作伙伴表示,人工智能公司开始根据其他领域的版权法建立强大的数据抓取法律框架。

同样,Reddit 的交易表明,主机公司开始要求数据补偿,但这里的关键区别在于,其 812个月用户 尚未明确同意成为人工智能机器的一部分。

无论 Reddit 的服务条款将来是否会更新以提高数据去向的透明度,我们知道这笔交易之前的所有数字信息也是公平的游戏。通俗地说,你不能事后请求许可,不是吗?

也许这就是抓取新闻媒体和社交媒体平台进行人工智能学习的主要区别。后者几乎完全由用户生成的内容填充;其使用似乎完全取决于各自管理层的自由裁量权。

这种类型的交易可能会在未来几年变得更加普遍,而不是创建具有更明显人类品质的 AGI(通用人工智能)平台。

虽然这听起来可能是积极的,但只要想想如果一切按计划进行,这个身份不明的学习机器将受到无穷无尽的错误信息和废话的影响。

看在皮特的份上,这是 Reddit。这些人工智能保障措施肯定需要加强。

无障碍