Reddit封锁互联网档案馆以阻止AI公司隐秘爬取数据

Reddit近期封锁了互联网档案馆的爬取权限,因发现被限制的AI公司转而通过Wayback Machine获取数据。此举涉及平台政策违反、用户隐私保护及数据授权交易,可能影响网络存档的开放性。

Reddit封锁互联网档案馆以结束隐秘的AI数据爬取

Reddit现已阻止互联网档案馆(IA)索引其热门讨论串。此前,Reddit发现一些被限制爬取其数据的AI公司转而从IA的存档内容中获取数据。

此前,IA的Wayback Machine可靠地存档了Reddit页面、个人资料和评论——作为其存档互联网使命的一部分。但今后,只有Reddit主页的截图会被存档。正如The Verge所指出的,这意味着存档仅能作为每日热门帖子和新闻标题的快照,而无法提供已删除帖子的备份、各种Reddit亚文化的窗口或任何特定用户活动的记录。

Reddit未确认哪些AI公司从Wayback Machine爬取其数据。该公司发言人Tim Rathschmidt仅向Ars确认,Reddit已经“意识到AI公司违反平台政策(包括我们的政策)并从Wayback Machine爬取数据的情况”。

Rathschmidt建议,IA或许可以采取一些措施来更好地防御对存档Reddit内容的AI爬取。这可能促使Reddit解除对其爬取的限制,The Verge报道称,这一限制将从今天起在Reddit上逐步加强。

但Reddit也借此机会解决其他显然长期存在的隐私问题,并补充说限制是适当的,因为Wayback Machine有问题地存档了用户已删除的内容。

“在他们能够防御其网站并遵守平台政策(例如,尊重用户隐私,关于删除已移除内容)之前,我们限制他们访问部分Reddit数据以保护Reddit用户,”Rathschmidt说。

对社交媒体评论的回顾表明,过去一些Reddit用户使用Wayback Machine研究已删除的评论或讨论串。那些评论者指出,存在无数其他工具用于显示已删除帖子或研究用户活动,一些人认为Wayback Machine可能不是最容易导航的平台。

在Reddit平台变化引发内容移除时,Reddit用户也转向IA等资源。最近在2023年,当Reddit的公共API变化威胁到 beloved subreddits 时,存档介入以在内容丢失前保存它们。

IA未表示是否正在研究解决方案以解除Reddit的限制,也未回应Ars关于这一变化可能如何影响存档作为开放网络资源的实用性的评论请求,考虑到Reddit的流行度。

Wayback Machine的主任Mark Graham告诉Ars,IA与Reddit有“长期关系”,并继续“就此事项进行持续讨论”。

Reddit似乎有财务动机限制AI公司利用Wayback Machine存档,可能希望促成更有利的授权交易,如Reddit与OpenAI和Google达成的协议。OpenAI交易的条款保密,但Google交易据报道价值6000万美元。在未来三年内,Reddit预计从此类授权交易中获利超过2亿美元。

披露:拥有Ars Technica母公司Condé Nast的Advance Publications是Reddit的最大股东。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计