安全与智能协同进化的多模态推理模型

SafeWork-R1：基于AI-45°法则的安全与智能协同进化

摘要

我们推出SafeWork-R1，这是一种尖端的多模态推理模型，展示了能力与安全的协同进化。该模型通过提出的SafeLadder框架开发，该框架包含大规模、渐进式、以安全为导向的强化学习后训练，并得到一套多原则验证器的支持。

与RLHF等仅学习人类偏好的传统对齐方法不同，SafeLadder使SafeWork-R1能够发展内在的安全推理和自我反思能力，产生安全"顿悟"时刻。值得注意的是，SafeWork-R1在安全相关基准测试中相比基础模型Qwen2.5-VL-72B平均提升46.54%，且不损害通用能力，与GPT-4.1和Claude Opus 4等领先专有模型相比提供了最先进的安全性能。

为进一步增强可靠性，我们实施了两种不同的推理时干预方法和审议搜索机制，强制执行步骤级验证。最后，我们进一步开发了SafeWork-R1-InternVL3-78B、SafeWork-R1-DeepSeek-70B和SafeWork-R1-Qwen2.5VL-7B。所有结果模型都证明安全与能力可以协同进化，凸显了我们框架在构建稳健、可靠和可信的通用人工智能方面的泛化能力。

技术细节

框架架构：SafeLadder框架集成大规模渐进式安全强化学习
验证机制：多原则验证器套件支持步骤级验证
干预方法：两种推理时干预方法结合审议搜索机制
模型变体：支持不同参数规模的模型架构（7B-78B）

性能表现

安全基准测试平均提升46.54%
保持通用能力不退化
达到与主流专有模型相当的安全性能水平