AI厂商无视Robots协议,互联网秩序陷“礼乐崩坏”危机

AI大模型产业内,众多厂商还在探索盈利模式的道路上苦苦挣扎时,英伟达凭借强大的算力销售能力,已跃居全球市值首位,再次验证了“淘金热时,卖铁铲者最受益”的真理。然而,训练大模型不仅需要强大的算力,数据同样不可或缺。因此,Reddit、X等内容平台开始涉足数据交易这一领域。不过,随着监管的加强和市场竞争的激烈,数据交易这一生意也面临着诸多挑战。

近日,据路透社报道,内容授权初创公司TollBit向出版商发出警告,称多家人工智能公司正在绕过他们用于阻止内容抓取的通用网络标准,擅自抓取数据用于训练生成式AI系统。几乎在同一时间,《Wired》杂志也披露了AI搜索公司Perplexity存在绕过机器人排除协议(Robots Exclusion Protocol)以获取受限网络内容的行为。

这些事件并非孤例。此前,OpenAI使用YouTube上的视频内容训练模型谷歌也被曝出修改用户协议以免费获取旗下平台用户数据的消息。从一线巨头到初创企业,整个AI行业似乎都在以一种近乎“数据小偷”的方式在获取数据。AI厂商无视Robots协议,互联网秩序陷“礼乐崩坏”危机

数据作为训练AI大模型的基础,其重要性不言而喻。高质量的数据更是决定了大模型性能的上限。因此,AI厂商对数据的需求如同饕餮般巨大。然而,现实却是可供交易的数据已难以满足大模型的需求。

在正常的数据交易道路受阻后,“偷数据”似乎成了AI厂商们心照不宣的选择。Robots Exclusion Protocol(Robots协议)是网站用来告知搜索引擎哪些内容可以抓取、哪些内容不能抓取的协议。然而,这一协议却被部分AI厂商无视。

Robots协议虽然不具备法律层面的强制力,但在过去三十年里,它已成为网站和搜索引擎共同遵守的数据抓取规则。然而,随着市场竞争的加剧和AI厂商对数据需求的增加,这一规则正面临被打破的风险。

这一现象的背后,是互联网从“竞于道德”到“逐于智谋”再到“争于气力”的演变。在流量红利枯竭、互联网进入存量竞争时代的背景下,AI厂商为了获取更多数据以训练更强模型、进而获取更多投资,不得不采取更加激进的数据获取方式。

当然,AI厂商并非意图颠覆整个互联网秩序,而是面临着难以提供让数据拥有者满意的筹码的困境。过去,网站站长愿意向Googlebot等搜索引擎开放数据,是因为搜索引擎能为其带来流量和收益。然而,在当前的竞争环境下,AI厂商能否提供类似的价值交换方式,仍有待观察。

版权声明:AI导航网 发表于 2024-07-01 11:44:09。
转载请注明:AI厂商无视Robots协议,互联网秩序陷“礼乐崩坏”危机 | AI导航网

暂无评论

暂无评论...