AI Grounding与Brave搜索API:提升AI应用搜索性能
今天,我们推出搭载Brave搜索API的AI Grounding功能——这是一个强大的全栈解决方案,可将AI系统输出与可验证数据源相连接。通过AI Grounding,大语言模型(LLM)的响应能够基于来自可验证网络来源的高质量事实信息,从而减少幻觉现象,并对复杂输入做出更恰当的反应。
使用AI Grounding生成的答案在SimpleQA基准测试中达到了最先进的性能水平,F1分数达94.1%。值得注意的是,Brave的AI Grounding服务取得这些成果并未专门针对SimpleQA基准进行优化——这种性能是该系统设计自然产生的副产品。
技术实现与应用
Brave的AI Grounding已经为Brave搜索中的"Answer with AI"功能提供支持,该功能每日处理超过1500万次查询,并很快将支持Brave搜索中即将推出的研究模式功能以及Brave浏览器集成AI助手Brave Leo。Brave搜索API已经为前10大AI LLM中的大多数提供实时网络搜索数据,对其中一些而言,Brave实际上是支持其AI答案的唯一搜索引擎索引。
开始使用AI Grounding
从今天开始,Brave搜索API客户可以通过订阅我们的公共AI计划(免费版、基础版或专业版)或联系我们了解定制计划来访问新的AI Grounding端点。本次发布的新功能高级概述包括:
- AI Grounding计划(新):答案基于单次搜索或更高级的研究模式(多次搜索、推理、规划和回答)进行落地。该计划定价为每千次网络搜索4美元,加上每百万token(输入和输出)5美元。
- 专业AI计划(更新):通过现有的openapi兼容端点访问此更新。专业AI计划的定价不变。
技术说明
Brave的质量评估依赖于基于AI的评估和人工评估。这些人工评估由专门培训的专用团队执行,以确保一致性和连贯性。评估过程涵盖广泛的维度——从导航查询到最终输出的盲评估等。
我们使用的AI测试之一是SimpleQA,这是OpenAI开发的一个基准测试,用于评估大语言模型在回答简短的事实寻求类问题时的 factual 准确性。它专注于具有单一、无可争议和永恒答案的问题,允许使用LLM作为评判者进行直接评估。该数据集包含4,332个问题,涵盖历史、科学、技术、艺术和娱乐等不同领域。
与其他API提供商的比较
在评估SimpleQA基准性能时,一个重要但经常被忽视的因素是每个问题发出的搜索查询数量。单次搜索和多次搜索策略之间的这种区别可能显著影响成本和用户体验,但在基准讨论中很少被强调。
单次搜索和多次搜索方法之间的选择具有基础性影响:
- 单次搜索系统:向网络发出一个查询,将结果传递给LLM,并生成答案。这种方法快速且成本效益高——平均而言,Brave搜索的响应在4.5秒内完成流式传输,计算开销最小。
- 多次搜索系统:相比之下,执行顺序搜索。LLM迭代地完善其对查询的理解,并发出额外的搜索,导致:
- 更高的API调用量
- 更大的上下文窗口需要处理
- 增加的推理时间和计算成本
独立性为何重要
谷歌和必应,第一和第二大搜索引擎,并未将其搜索引擎广泛提供给其他企业。必应在2023年首先提高价格,并在今年完全关闭其搜索API,这使得Brave成为全球网络范围内唯一独立且商业上可行的搜索引擎API。
SimpleQA的注意事项
我们认为,SimpleQA基准最重要的启示是,配备搜索引擎访问能力的强大开源模型显著优于没有检索能力的顶级模型。然而,当前形式的SimpleQA带有重要的注意事项和细微差别。
上下文污染
当SimpleQA基准首次推出时,它为评估事实准确性提供了有价值的评估指标。然而,随着时间的推移,越来越多包含基准查询及其相应答案的网页出现在网络上。
模糊性
SimpleQA测试集中的问题表现出不同程度的答案模糊性。根据测试设置,LLM评判者将4,332个问题中的292个标记为不正确。
结论
随着AI持续渗透搜索、生产力和创意工作流程,使用高质量独立来源进行落地已不再是可选项,而是与最终用户建立信任和提供价值的关键。通过推出搭载Brave搜索API的AI Grounding,我们为最佳AI搜索设定了新标准,为世界级LLM应用提供动力。
更新:2025年9月1日
我们发布了新的模型更新,这是对先前版本的显著改进。单次搜索从这一增强中获益最多。用户现在可以依赖我们最快的模型,以更高的信心和速度提供高质量的落地答案。
研究模式也获得了重大改进。更新后的模型与我们先前最佳结果的性能相匹配,同时在减少的上下文窗口中运行,带来更快的响应时间和更低的成本。