SafeWork-R1:基于AI-45°法则的安全与智能协同进化
摘要
我们推出SafeWork-R1,这是一种尖端的多模态推理模型,展示了能力与安全的协同进化。该模型通过提出的SafeLadder框架开发,该框架包含大规模、渐进式、以安全为导向的强化学习后训练,并得到一套多原则验证器的支持。
与RLHF等仅学习人类偏好的传统对齐方法不同,SafeLadder使SafeWork-R1能够发展内在的安全推理和自我反思能力,产生安全"顿悟"时刻。值得注意的是,SafeWork-R1在安全相关基准测试中相比基础模型Qwen2.5-VL-72B平均提升46.54%,且不损害通用能力,与GPT-4.1和Claude Opus 4等领先专有模型相比提供了最先进的安全性能。
为进一步增强可靠性,我们实施了两种不同的推理时干预方法和审议搜索机制,强制执行步骤级验证。最后,我们进一步开发了SafeWork-R1-InternVL3-78B、SafeWork-R1-DeepSeek-70B和SafeWork-R1-Qwen2.5VL-7B。所有结果模型都证明安全与能力可以协同进化,凸显了我们框架在构建稳健、可靠和可信的通用人工智能方面的泛化能力。
技术细节
- 框架架构:SafeLadder框架集成大规模渐进式安全强化学习
- 验证机制:多原则验证器套件支持步骤级验证
- 干预方法:两种推理时干预方法结合审议搜索机制
- 模型变体:支持不同参数规模的模型架构(7B-78B)
性能表现
- 安全基准测试平均提升46.54%
- 保持通用能力不退化
- 达到与主流专有模型相当的安全性能水平