AI Grounding与Brave搜索API:提升AI应用中的搜索性能
今天,我们推出搭载Brave搜索API的AI Grounding功能——这是一个强大的全栈解决方案,可将AI系统的输出与可验证数据源连接。通过AI Grounding,大语言模型(LLM)的响应能够基于来自可验证网络来源的高质量事实信息,从而减少幻觉现象,并对细微差别的输入做出更恰当的反应。
使用AI Grounding生成的答案在SimpleQA基准测试中达到了最先进的性能水平,F1分数为94.1%。值得注意的是,Brave的AI Grounding服务实现这些结果并未专门针对SimpleQA基准进行优化——这种性能是该系统设计自然产生的副产品。
Brave的AI Grounding实践
Brave的AI Grounding已经为Brave搜索中的“Answer with AI”功能提供支持,该功能每日处理超过1500万次查询,并很快将支持Brave搜索中即将推出的研究模式功能以及Brave浏览器内置AI助手Brave Leo。Brave搜索API已经为前10大AI LLM中的大多数提供实时网络搜索数据,对于其中一些模型,Brave实际上是支持其AI答案的唯一搜索引擎索引。
开始使用AI Grounding
从今天开始,Brave搜索API的客户可以通过订阅我们的公共AI计划(免费版、基础版或专业版)或联系我们了解定制计划来访问新的AI Grounding端点。本次发布的新功能高级概述包括:
- AI Grounding计划:答案基于单次搜索或更高级的研究模式(多次搜索、推理、规划和回答)进行基础定价为每千次网络搜索4美元加上每百万token 5美元。
- 专业AI计划:通过现有的openapi兼容端点访问此更新。专业AI计划的定价保持不变。
技术说明
Brave的质量评估依赖于基于AI的评估和人工评估。这些人工评估由专门培训的团队进行,以确保一致性和连贯性。评估过程涵盖广泛的维度——从导航查询到最终输出的盲评估等等。
我们使用的AI测试之一是SimpleQA,这是OpenAI开发的一个基准,用于评估大语言模型在回答简短的事实寻求性问题时的 factual 准确性。它专注于具有单一、无可争议和永恒答案的问题,允许使用LLM作为评判者进行直接评估。该数据集包含4,332个问题,涵盖历史、科学、技术、艺术和娱乐等不同领域。
与其他API提供商的比较
评估SimpleQA基准性能时一个重要但经常被忽视的因素是每个问题发出的搜索查询数量。单次搜索和多次搜索策略之间的区别可能显著影响成本和用户体验,但在基准讨论中很少被强调。
单次搜索和多次搜索方法之间的选择具有基础性影响:
- 单次搜索系统:向网络发出一个查询,将结果传递给LLM,并生成答案。这种方法快速且成本效益高——Brave搜索的平均响应流式传输在4.5秒内完成,计算开销最小。
- 多次搜索系统:相比之下,执行顺序搜索。LLM迭代地完善其对查询的理解并发出额外的搜索,导致:
- 更高的API调用量
- 更大的上下文窗口需要处理
- 增加推理时间和计算成本
多次搜索系统通常将响应时间延长至数分钟,使其更适合延迟不太关键的后台或高精度任务。对于实时应用,单次搜索仍然是最佳解决方案。
Brave搜索API在单次搜索和多次搜索配置中都展示了最先进的性能:
提供商 | 模型 | 单次搜索 | 多次搜索 |
---|---|---|---|
Brave | AI Grounding | F1: 92.1% Acc: 90.78% Acc*: 93.4% |
- |
Brave | AI Grounding: Research With Reasoning | F1: 92.3% Acc: 90.5% Acc*: 94.3% |
F1: 94.1% Acc: 93.25% Acc*: 94.9% |
Brave可以使用单次搜索回答基准测试中超过一半的问题,中位响应时间为24.2秒。平均而言,回答这些问题涉及发出7个搜索查询,分析210个独特页面(包含6,257个陈述或段落),并需要74秒完成。大多数问题可以通过单个查询解决的事实突显了Brave搜索返回结果的高质量。
为什么独立性很重要
Google和Bing,第一和第二大搜索引擎,并未广泛向其他企业提供其搜索引擎。Bing选择在2023年首先提高价格,并在今年完全关闭其搜索API,使Brave成为唯一独立且商业上可行的全球网络全规模搜索引擎API。Google和Microsoft都为其AI API提供有限的网络搜索扩展,但这些范围仍然狭窄,与AI推理捆绑在一起,并且对于大型商业用例来说成本过高。
SimpleQA的注意事项
我们认为,SimpleQA基准测试最重要的结论是,配备搜索引擎访问能力的强大开源模型显著优于没有检索能力的顶级模型。然而,当前形式的SimpleQA带有重要的注意事项和细微差别。必须承认这些,才能超越简单化、适合头条的"数字上升"叙述,转向更深入地理解基准真正反映的内容。
上下文污染
当SimpleQA基准首次引入时,它为评估事实准确性提供了有价值的评估指标。然而,随着时间的推移,越来越多包含基准查询及其相应答案的网页出现在网络上。这些页面可能已被纳入新模型的训练数据,并且也被搜索引擎索引——无论是通过自然发现还是针对性索引。这创建了一个上下文污染场景,其中检索到的答案可能反映记忆或直接暴露,而不是真正的推理或检索质量,导致基准分数膨胀。
模糊性
SimpleQA测试集中的问题表现出不同程度的答案模糊性。LLM评判者(根据测试设置)将4,332个问题中的292个标记为不正确。为了评估这一评估的准确性,Brave的人工评估团队手动审查了这292个案例中的每一个。他们的分析发现,在167个实例中,LLM评判者要么:
- 错误地拒绝了有效答案,要么
- 依赖于SimpleQA中的预期答案,而这些答案本身包含事实不准确或过度简化。
结论
随着AI持续渗透搜索、生产力和创意工作流程,基于高质量独立来源的基础已不再是可选项。它已成为与最终用户建立信任和提供价值的关键。随着Brave搜索API引入AI Grounding,我们为最佳AI搜索设定了新标准,为世界级LLM应用提供动力。
Brave搜索在最终用户中的持续增长证明了我们的质量,每周有超过4,000名开发人员注册Brave搜索API,以将相同质量水平带入他们自己的产品中。要开始使用AI Grounding,请注册Brave搜索API或联系我们了解大型企业的定制计划。
更新:2025年9月1日
我们发布了新的模型更新,这是对先前版本的显著改进。单次搜索从这一增强中获得了最实质性的收益。用户现在可以依赖我们最快的模型,以更大的信心和速度提供高质量的基础答案。
模型 | 先前性能 | 当前性能 | 变化 |
---|---|---|---|
AI Grounding(无推理) | F1: 89.8% Acc: 86.1% Acc*: 93.8% |
F1: 92.1% Acc: 90.78% Acc*: 93.4% |
+2.3% +4.68% -0.4% |
研究模式也收到了重大改进。更新后的模型与我们先前最佳结果的性能相匹配,同时在减少的上下文窗口中运行,导致更快的响应时间和更低的成本。