安全与智能协同进化的多模态推理模型

本文介绍SafeWork-R1模型,通过SafeLadder框架实现能力与安全的协同进化。该框架采用大规模渐进式安全强化学习训练,配备多原则验证器,使模型具备内在安全推理和自我反思能力,在安全基准测试中表现卓越且不牺牲通用能力。

SafeWork-R1:基于AI-45°法则的安全与智能协同进化

摘要

我们推出SafeWork-R1,这是一种尖端的多模态推理模型,展示了能力与安全的协同进化。该模型通过提出的SafeLadder框架开发,该框架包含大规模、渐进式、以安全为导向的强化学习后训练,并得到一套多原则验证器的支持。

与RLHF等仅学习人类偏好的传统对齐方法不同,SafeLadder使SafeWork-R1能够发展内在的安全推理和自我反思能力,产生安全"顿悟"时刻。值得注意的是,SafeWork-R1在安全相关基准测试中相比基础模型Qwen2.5-VL-72B平均提升46.54%,且不损害通用能力,与GPT-4.1和Claude Opus 4等领先专有模型相比提供了最先进的安全性能。

为进一步增强可靠性,我们实施了两种不同的推理时干预方法和审议搜索机制,强制执行步骤级验证。最后,我们进一步开发了SafeWork-R1-InternVL3-78B、SafeWork-R1-DeepSeek-70B和SafeWork-R1-Qwen2.5VL-7B。所有结果模型都证明安全与能力可以协同进化,凸显了我们框架在构建稳健、可靠和可信的通用人工智能方面的泛化能力。

技术细节

  • 框架架构:SafeLadder框架集成大规模渐进式安全强化学习
  • 验证机制:多原则验证器套件支持步骤级验证
  • 干预方法:两种推理时干预方法结合审议搜索机制
  • 模型变体:支持不同参数规模的模型架构(7B-78B)

性能表现

  • 安全基准测试平均提升46.54%
  • 保持通用能力不退化
  • 达到与主流专有模型相当的安全性能水平
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计