GenAI正以前所未有的速度发展,频繁发布的新一代大语言模型(LLMs)持续带来性能提升、效率优化和新功能。面对快速迭代的模型生态,开发者、研究机构和企业迫切需要可靠的方法来持续评估模型性能与安全性,以选择最适合自身场景的解决方案。为此,谷歌DeepMind与Giskard联合推出LMEval大模型评估框架,并配套发布Phare Benchmark——一个独立的多语言安全与可靠性基准测试体系。
该技术方案包含两大核心组件:
- LMEval框架:标准化的大模型评估基础设施,支持模块化测试项配置
- Phare基准:涵盖多语言场景的安全评估体系,包含对抗性测试、偏见检测等关键维度
这套工具链特别针对以下挑战设计:
- 模型迭代导致的评估标准不一致问题
- 多语言环境下的安全风险量化
- 实际部署场景中的可靠性验证
技术架构采用可扩展的插件式设计,支持研究人员快速集成新的测试指标,同时保持历史测试结果的可比性。目前已在GitHub开源核心组件,包含预置的20+安全评估模块。