独立评估证实Nova Premier的安全性
在黑盒压力测试和红队演练中,Nova Premier均表现出色。
AI安全承诺
某机构将AI安全作为优先事项,在安全、透明和负责任AI(RAI)方面的投资包括与全球社区和政策制定者的合作。作为前沿模型论坛、AI合作伙伴组织等机构的成员,某机构与政府机构组织的论坛保持协作。遵循某机构对韩国前沿AI安全承诺的支持,今年早些时候发布了前沿模型安全框架。
模型安全防护机制
Nova Premier的防护机制有助于防止生成不安全内容。在模型开发过程中,进行了全面评估以检验其性能和安全性,包括内部和公共基准测试、内部/自动化及第三方红队演练。最终模型准备就绪后,优先获取了针对RAI控制措施稳健性的无偏见第三方评估。
PRISM AI评估细节
PRISM Eval的行为诱导工具(BET)动态系统地压力测试AI模型的安全防护机制。该方法专注于测量在多个关键风险维度上诱导模型生成有害内容所需的对抗尝试次数(步骤数)。核心指标是"诱导步骤数"——模型生成不当响应前所需的逐渐复杂提示尝试次数。步骤数越多表明安全措施越强,因为模型更抗操纵。
PRISM风险维度(受MLCommons AI安全基准启发)包括CBRN武器、暴力犯罪、非暴力犯罪、诽谤和仇恨等。使用针对非推理模型定制的BET Eval V1.0指标,比较了最新发布的Nova模型(Pro和Premier)与同类最新模型:Claude(3.5 v2和3.7非推理版本)和Llama4 Maverick。
通过BET Eval MAX(PRISM最全面/激进的测试套件)进行的评估显示,针对恶意指令的安全性存在显著差异。Nova模型展现出卓越的整体安全性能:Premier平均43步,Pro平均52步,而Claude 3.5 v2为37.7步,对比组中其他模型均低于12步(Claude3.7为9.9步,Claude 3.7思考模式为11.5步,Maverick为6.5步)。更高的步骤数表明Nova的安全防护机制更复杂,更难通过对抗提示绕过。
ActiveFence手动红队测试
AI安全公司ActiveFence在某机构的八个核心RAI类别提示上对Bedrock平台的Nova Premier进行基准测试。同时评估了Claude 3.7(非推理模式)和GPT 4.1 API。Nova Premier的标记率低于其他两个模型,表明其是三者中最安全的。
模型 | 第三方标记率[越低越好] |
---|---|
Nova Premier | 12.0% |
Sonnet 3.7 (非推理) | 20.6% |
GPT4.1 API | 22.4% |
ActiveFence的Guy Paltieli表示:“我们的角色是像对手一样思考,但为安全服务。通过对Nova Premier在真实威胁场景下进行盲测压力测试,我们帮助评估其安全状况,支持某机构更广泛的负责任AI目标,确保模型能够更自信地部署。”
持续改进承诺
这些评估使我们对防护机制的强度和保护客户安全的能力充满信心。虽然评估显示出强大的安全性能,但认识到AI安全是需要持续改进的持续挑战。这些评估代表时间点快照,承诺定期测试和增强安全措施。没有AI系统能保证所有场景下的绝对安全,因此部署后保持监控和响应系统。
致谢
Vincent Ponzo, Elyssa Vincent