Google Stax 是一个旨在用客观、数据驱动且可重复的过程取代AI模型主观评估的框架。Google表示,这将使AI开发者能够根据具体用例定制评估过程,而不是依赖通用基准。
根据Google的说法,评估对于通过比较质量、延迟和成本来为给定解决方案选择正确模型至关重要。它对于评估提示工程和微调工作在改善结果方面的实际效果也至关重要。可重复基准测试有价值的另一个领域是智能体编排,它们有助于确保智能体和其他组件可靠地协同工作。
Stax 提供了构建结合人类判断和自动评估器的基准测试的数据和工具。开发者可以导入生产就绪的数据集或创建自己的数据集,既可以通过上传现有数据,也可以使用LLM生成合成数据集。同样,Stax 包含一套用于常见指标(如冗长性和摘要)的默认评估器,同时允许为更具体或更细粒度的标准创建自定义评估器。
创建自定义评估器只需几个步骤,首先选择将充当评判的基础LLM。评判者会收到一个提示,说明如何评估被测模型的输出。提示必须包含评判者用于评分类别的定义,每个类别与0.0到1.0之间的数值分数相关联。此外,它必须包含关于首选响应格式的说明,并可以使用变量来引用 {{output}}
、{{input}}
、{{history}}
、{{expected_output}}
和 {{metadata.key}}
。为确保评估器的可靠性,应使用经典的监督学习方法针对可信的人类评分进行校准。然后可以通过迭代过程对评估器提示进行微调,以提高其评分与可信评估器评分之间的一致性。
Google Stax 并非AI模型评估的唯一可用解决方案。其竞争对手包括 OpenAI Evals、DeepEval、MLFlow LLM Evaluate 等许多其他工具,每种工具在方法和能力上都有显著差异。
目前,Stax 支持对不断增长的模型提供商列表进行基准测试,包括 OpenAI、Anthropic、Mistral、Grok、DeepSeek 和 Google 自身。此外,它还可以与自定义模型端点一起使用。在测试期间免费使用,但Google表示在此之后可能会引入定价模式。
关于数据隐私的最后说明:Google声明不会拥有用户数据,包括提示、自定义数据集或评估器,也不会使用这些数据来训练其语言模型。但是,用户应注意,在使用其他提供商时,这些提供商的数据政策也将适用。