跨模态视觉语言模型识别不安全概念的能力差距与优化方案

本研究系统评估了视觉语言模型在跨模态识别不安全概念时的表现,发现开源模型存在明显的模态差距。通过提出基于PPO的简化强化学习方法,有效提升了模型对图像不安全概念的识别能力,同时保持通用性能,优于监督微调和直接偏好优化等基线方法。

跨模态视觉语言模型识别不安全概念的能力差距与优化方案

摘要

视觉语言模型(VLMs)因其内部伦理标准和强大推理能力,越来越多地被用于识别不安全或不适当的图像。然而,目前尚不清楚这些模型在不同模态(如文本和图像)呈现时是否能识别各种不安全概念。为此,我们首先构建了UnsafeConcepts数据集,包含75个不安全概念(如“卐字符”、“性骚扰”和“攻击”)以及相关的1.5K张图像。随后,我们系统评估了VLMs的感知(概念识别)和对齐(伦理推理)能力。

评估发现

我们评估了八个流行的VLMs,发现尽管大多数VLMs能准确感知不安全概念,但有时会错误地将这些概念分类为安全。我们还发现开源VLMs在区分视觉和文本不安全概念时存在一致的模态差距。

方法

为弥合这一差距,我们引入了一种基于简化强化学习(RL)的方法,使用近端策略优化(PPO)来增强从图像中识别不安全概念的能力。我们的方法直接基于VLM响应生成奖励分数,无需收集人工标注的偏好数据来训练新的奖励模型。

实验结果

实验结果表明,我们的方法有效增强了VLMs在图像上的对齐能力,同时保持了通用性能。它在性能上优于监督微调(SFT)和直接偏好优化(DPO)等基线方法。

贡献

我们希望我们的数据集、评估结果和提出的对齐解决方案能为社区推动安全VLMs的发展做出贡献。

注释: 本文已入选第34届USENIX安全研讨会(2025年8月)。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计