Cloudflare推出AI索引:重塑内容发现与数据获取的新范式

Cloudflare发布AI索引私有测试版,通过自动创建AI优化搜索索引、提供标准API工具集和实时更新机制,构建连接内容创作者与AI开发者的公平数据生态。该技术方案包含MCP服务器、搜索API和开放索引层等核心组件。

面向所有客户的AI索引

今日,我们宣布推出Cloudflare域名AI索引私有测试版。这是一种新型网络索引,为内容创作者提供工具使其数据可被AI发现,同时让AI开发者能够以公平报酬获取更优质数据。

启用域名的AI索引后,我们将自动为您的网站创建AI优化搜索索引,并暴露一组即用型标准API和工具,包括MCP服务器、LLMs.txt和搜索API。客户将拥有并控制该索引及其使用方式,并能通过按次爬取付费和新型x402集成实现访问变现。您可用其在自有站点构建现代搜索体验,更重要的是与外部AI和智能体提供商交互,使您的内容更易被发现的同时获得公平报酬。

对于AI开发者——无论是创建智能体应用的开发者,还是提供基础LLM模型的AI平台公司——Cloudflare将提供发现和检索网络内容的新方式:通过AI索引与单个网站建立直接发布/订阅连接。开发者无需盲目爬取,而是能订阅选择加入发现的特定站点,在内容变更时立即接收结构化更新,并为每次访问支付合理费用。访问权限始终由站点所有者自主决定。

基于个体索引,Cloudflare还将构建聚合层——开放索引(Open Index),将参与站点打包整合。开发者获得统一平台以跨集合或更广网络进行搜索,而每个站点仍保留控制权并能从参与中获利。

为何构建AI索引?

AI平台正迅速成为人们在线发现信息的主要途径之一。无论是要求聊天机器人总结新闻文章还是寻找产品推荐,获取答案的路径几乎总是始于爬取原始内容并索引或使用该数据进行训练。然而当前该过程主要受平台控制:爬取内容、爬取频率以及站点所有者是否拥有发言权。

尽管Cloudflare现提供监控和控制AI服务如何遵循您的访问策略及如何访问您的内容的功能,但使新内容可见仍具挑战。内容创作者没有高效方式在页面发布或更新时向AI开发者发出信号。另一方面,对AI开发者而言,爬取和重新爬取非结构化内容成本高昂、浪费资源,尤其在无法预知质量和成本的情况下。

我们需要构建更公平健康的内容发现和使用生态系统,弥合内容创作者与AI开发者之间的鸿沟。

AI索引如何运作

当您在Cloudflare上接入域名或已有域名时,可选择启用AI索引。启用后,我们将自动为您拥有和控制的域名创建AI优化搜索索引。

随着站点更新和增长,索引将同步演进。新页面或更新页面将使用为Cloudflare AI搜索(原AutoRAG)及其“网站作为数据源”功能提供支持的相同技术进行实时处理。最重要的是,我们将管理一切;您无需担心计算、存储资源、数据库、嵌入、分块或AI模型等单个组件。所有操作将在后台自动完成。

重要的是,您可通过AI爬取控制控制网站索引包含或排除哪些内容,以及谁能访问您的内容,确保仅暴露您希望公开的数据可被搜索和访问。您也可完全选择退出AI索引;一切由您决定。

AI索引设置完成后,您将获得一组即用型API:

  • MCP服务器:智能体应用能通过模型上下文协议(MCP)直接连接至您的站点,以标准化方式使您的内容可被智能体发现。这包括对NLWeb工具的支持,这是微软开发的开源项目,定义了网站自然语言查询的标准协议。
  • 灵活搜索API:该端点将以结构化JSON返回相关结果。
  • LLMs.txt和LLMs-full.txt:遵循新兴开放标准,为LLM提供站点机器可读地图的标准文件。这些将帮助模型在推理时理解如何使用您站点的内容。Cloudflare开发者文档中存在llms.txt示例。
  • 批量数据API:在您设定规则下高效传输大量内容的端点。AI提供商无需查询每个文档,而能一次性摄取。
  • 发布-订阅:AI平台能订阅您站点的索引,并通过Cloudflare直接以结构化格式实时接收事件和内容更新,使其无需重新爬取即可保持最新。
  • 可发现性指令:在robots.txt和知名URI中,允许访问您站点的AI智能体和爬虫自动发现并使用可用API。

该索引将直接与AI爬取控制集成,因此您能查看谁在访问您的内容、设置规则和管理权限。通过按次爬取付费和x402集成,您可选择直接通过内容访问获利。

面向AI开发者的网络数据流

作为AI开发者,您能通过单个站点的AI索引发现并订阅高质量、经授权的网络数据。无需在开放互联网上盲目发送爬虫,您将通过发布/订阅模式连接:参与网站在其内容变更时暴露结构化更新,您能订阅实时接收这些更新。采用此模式,您的新工作流可能如下所示:

  • 发现选择加入的网站:浏览和筛选通过Cloudflare提供其索引的网站目录。
  • 通过元数据和指标评估内容:在访问前获取关于各种指标(如独特性、深度、上下文相关性、流行度)的内容元数据信息。
  • 公平支付访问费用:当内容有价值时,平台可通过按次爬取付费直接补偿创作者。这些支付不仅支持访问,还支持持续创作原创内容,有助于维持更健康的发现生态系统。
  • 订阅更新:使用发布-订阅接收网站所做更改的事件,从而知悉何时检索或爬取新内容,避免因持续重新爬取而浪费资源。

通过从盲目爬取转向经授权的网络发布/订阅系统,AI开发者节省时间、降低成本并获得更清晰高质量的数据,而内容创作者保持控制权并获得公平报酬。

聚合的开放索引

个体索引使AI平台能够直接从特定站点访问数据,允许其订阅更新、评估价值并按站点为基础支付完整内容访问费用。但当开发者需要大规模工作时,管理数十或数百个独立订阅可能变得复杂。开放索引将提供额外选项:打包、选择加入的索引集合,具备质量、独特性、原创性和内容过滤器深度等复杂功能,全部可在一处访问。

开放索引旨在简化大规模内容发现:

  • 获取统一访问:同时查询和检索多个参与站点的数据。这减少了集成开销,使开发者能接入精选数据集合,或将其用作可在查询时访问的现成网络搜索层。
  • 发现更广范围:使用特定主题包(如新闻、文档、科学研究)或覆盖更广网络的通用发现索引。这使得探索您可能未单独识别的新内容源变得简单。
  • 自底向上获利:结果仍源自单个站点的AI索引,通过按次爬取付费将获利回流至该站点,有助于在大规模下保持公平性和可持续性。

个体AI索引和开放索引共同提供灵活性:当您需要来自单个站点的完整内容(用于训练、AI智能体或搜索体验)时提供精确控制,当您需要跨网络统一搜索时提供广泛搜索覆盖。

如何参与变革

通过AI索引和Cloudflare开放索引,我们正在创建一种模型:网站决定其内容的访问方式,AI开发者接收结构化、可靠的大规模数据,为互联网内容发现和使用构建更公平健康的生态系统。

我们从私有测试版开始。如果您想将网站注册到AI索引或作为AI开发者访问发布/订阅网络数据流,今日即可注册。

Cloudflare的连接云保护整个企业网络,帮助客户高效构建互联网规模应用,加速任何网站或互联网应用,抵御DDoS攻击,防范黑客,并助您完成零信任之旅。

从任何设备访问1.1.1.1,开始使用我们的免费应用,使您的互联网更快更安全。

要详细了解我们帮助构建更好互联网的使命,请从此处开始。如果您正在寻找新的职业方向,请查看我们的空缺职位。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计