«

维基百科遭机器人“围攻”,紧急推出AI训练数据集

一把老骨头 发布于 阅读:21 科技新闻


维基百科正面临一个前所未有的挑战:大量机器人不断在其网站上搜索数据,以训练人工智能模型,导致非人类流量激增,成本急剧上升。为了应对这一问题,维基媒体基金会与谷歌旗下的Kaggle合作,推出了一个专门为训练人工智能模型优化的维基百科版本。

这个新版本从英语和法语开始,将提供精简版的原始维基百科文本,排除任何引用或标记代码,以便开发者更方便地获取和使用。维基百科作为一个由志愿者领导的非营利平台,主要通过捐赠实现盈利,并不拥有其托管的内容,因此一直乐于其他组织将其庞大的知识语料库用于各种用途。然而,机器人潮的涌入让基金会不得不采取行动。

“我们很高兴能够与Kaggle合作,为人工智能开发者提供一个更高效、更便捷的数据获取方式,”维基媒体基金会的一位发言人表示。“同时,我们也希望这能够减少对网站的压力,降低运营成本。”

然而,这一举措也引发了一些争议。一些维基百科的贡献者担心,他们的内容被用于人工智能训练可能会侵犯他们的权益。尽管所有写作均根据知识共享署名-相同方式共享许可证授权,允许任何人自由分享、改编和构建作品,但贡献者们仍然担心自己的劳动成果被滥用。

“我们理解人工智能技术的发展需要大量的数据支持,”一位匿名贡献者表示,“但我们希望我们的劳动成果能够得到尊重,而不是被随意利用。”

对于这一问题,维基媒体基金会表示,他们将确保内容重用者遵守维基百科的署名和许可条款,以保护贡献者的权益。同时,他们也将继续与开发者合作,探索更加可持续、更加公平的数据共享模式。

维基百科