模仿人类突破付费墙的AI浏览器技术解析

本文深入分析了AI浏览器如何通过模拟人类行为突破付费墙的技术原理,包括代理能力、客户端覆盖式付费墙漏洞、服务器端验证绕过等关键技术细节,揭示了数字内容保护面临的全新挑战。

模仿人类突破付费墙的AI浏览器技术解析

AI浏览器的崛起与挑战

AI驱动浏览器的出现代表了人工智能与网络内容交互方式的重大转变。上周,OpenAI发布了Atlas,加入了包括Perplexity的Comet和微软Edge中的Copilot模式在内的AI浏览器浪潮,这些浏览器旨在改变人们与网络互动的方式。

与传统浏览器(如Chrome或Safari)不同,这些AI浏览器拥有"代理能力"——旨在自主执行复杂多步骤任务的精密工具。

技术实现原理

模拟人类行为的技术突破

当研究人员使用《麻省理工科技评论》一篇九千字的订阅专属文章测试Atlas和Comet时,两个浏览器都成功获取了全文内容。

关键区别在于这些AI浏览器的运作方式。对网站而言,Atlas的AI代理与使用标准Chrome浏览器的人几乎无法区分。

当爬虫和抓取工具等自动化系统访问网站时,它们使用数字ID标识自己,告诉网站正在发出请求的软件类型及其目的。出版商可以使用机器人排除协议选择性地阻止特定爬虫——这是许多媒体已实施的标准防御机制。

然而,由于Comet和Atlas等AI浏览器在网站日志中显示为正常的Chrome会话,阻止它们可能会同时阻止合法的人类用户访问网站。这一基本技术限制使得出版商极难检测、阻止或监控这些代理系统。

付费墙漏洞技术分析

漏洞不仅限于简单的爬虫检测。许多出版商,包括《国家地理》和《费城问询报》,依赖于客户端覆盖式付费墙,其中文本在页面上加载,但仍隐藏在订阅提示后面。

虽然这些内容对于正常浏览页面的人类是不可见的,但像Atlas和Comet这样的AI代理可以解析底层代码并直接提取文本。

相比之下,《华尔街日报》和彭博社等媒体采用服务器端付费墙,在验证凭据之前阻止全文到达浏览器。然而,一旦用户登录,AI浏览器就可以代表他们阅读文章并与之互动。

高级绕过技术

数字面包屑逆向工程

当AI代理遇到被阻止的内容时,问题变得更加复杂。研究记录显示,Atlas和类似系统采用复杂的变通方法来重建付费墙后的文章。

当要求总结来自PCMag(其母公司Ziff Davis曾因版权侵权起诉OpenAI)的内容时,Atlas通过利用推文、联合版本、其他媒体的引用以及网络上的相关报道,生成了一个综合摘要。

Atlas避免访问《纽约时报》内容,而是生成其他媒体相关报道的摘要。这种被描述为通过"数字面包屑"进行逆向工程的技术,使AI代理能够通过从多个来源组装信息来规避直接访问阻止。

技术限制与法律考量

OpenAI表示,默认情况下,它不会在Atlas中用户遇到的内容上训练其大型语言模型,除非用户选择加入"浏览器记忆",不过已阻止OpenAI抓取工具的页面将不会用于训练。

尽管有这些保证,关于OpenAI从用户为代理解锁阅读的付费内容中提取多少数据仍存在模糊性。

这种情况突显了一个关键差距:付费墙和爬虫阻止程序等传统防御措施已不足以阻止AI系统在未经出版商同意的情况下访问和重新利用新闻文章。

随着AI浏览器不断进化并可能重塑用户消费数字内容的方式,出版商面临着充满挑战的局面。无论这些工具是否获得广泛采用,绕过内容限制的能力从根本上改变了AI系统与数字出版商之间的关系。

如果代理系统代表了新闻消费的未来,出版商将需要对其内容如何、何时被日益复杂的AI代理访问、使用和潜在重新利用拥有更大的可见性和控制权。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计