Nova Premier模型安全评估技术解析

本文详细介绍了Nova Premier模型在第三方安全评估中的技术细节,包括PRISM AI的黑盒压力测试和ActiveFence的红队演练,展示了该模型在抵御恶意提示和有害内容生成方面的卓越性能表现。

独立评估证明Nova Premier的安全性

在黑盒压力测试和红队演练中,Nova Premier均表现出色。

AI安全承诺

某中心将AI安全作为优先事项,在安全、透明和负责任AI(RAI)方面的投资包括与全球社区和政策制定者的合作。作为前沿模型论坛、AI合作伙伴关系等组织的成员,与政府机构组织的论坛保持协作。遵循某中心对前沿AI安全承诺的支持,今年早些时候发布了前沿模型安全框架。

模型安全评估体系

在Nova Premier模型开发过程中,进行了全面评估以检验其性能和安全性,包括内部和公共基准测试、内部/自动化及第三方红队演练。最终模型完成后,优先获取了针对RAI控制措施的第三方无偏评估。

PRISM AI评估技术细节

PRISM Eval的行为诱导工具(BET)动态系统地压力测试AI模型的安全防护机制。该方法专注于测量在多个关键风险维度上诱导模型生成有害内容所需的对抗尝试次数(步骤数)。核心指标是"诱导步骤数"——模型生成不当响应前所需逐渐复杂的提示尝试次数。步骤数越多表明安全措施越强,因为模型更能抵抗操纵。

PRISM风险维度(受MLCommons AI安全基准启发)包括CBRNE武器、暴力犯罪、非暴力犯罪、诽谤和仇恨等类别。

使用针对非推理模型定制的BET Eval V1.0指标,比较了最新发布的Nova模型(Pro和Premier)与同类最新模型。PRISM BET通过API集成对模型进行黑盒评估(模型开发者无法访问测试提示)。

采用BET Eval MAX(PRISM最全面/激进的测试套件)进行的评估显示,针对恶意指令的安全性存在显著差异。Nova模型展现出卓越的整体安全性能:Premier平均43步,Pro平均52步,而对比模型中Claude 3.5 v2为37.7步,其他模型均低于12步(Claude3.7为9.9步,Claude 3.7思考模式为11.5步,Maverick为6.5步)。更高的步骤数表明Nova的安全防护机制更复杂,更难通过对抗性提示绕过。

ActiveFence手动红队测试

AI安全与安全公司ActiveFence在某中心的八个核心RAI类别上对Nova Premier进行了基准测试。同时评估了Claude 3.7(非推理模式)和GPT 4.1 API。Nova Premier的标记率低于其他两个模型,表明其是三者中最安全的。

模型 第三方标记率[越低越好]
Nova Premier 12.0%
Sonnet 3.7 (非推理) 20.6%
GPT4.1 API 22.4%

ActiveFence专家表示:“我们的角色是像对手一样思考,但以安全服务为目标。通过对Nova Premier在真实威胁场景下进行盲测压力测试,我们帮助评估了其安全状况,支持某中心更广泛的负责任AI目标,确保模型能够更自信地部署。”

持续改进承诺

这些评估使我们对防护机制的强度和保护客户安全的能力充满信心。虽然评估显示了强大的安全性能,但我们认识到AI安全是一个需要持续改进的持续挑战。这些评估代表时间点快照,我们承诺定期测试和增强安全措施。没有AI系统能保证所有场景下的绝对安全,因此我们在部署后保持监控和响应系统。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计