跨模态视觉语言模型识别不安全概念的能力差距与优化方案
摘要
视觉语言模型(VLMs)因其内部伦理标准和强大推理能力,越来越多地被用于识别不安全或不适当的图像。然而,目前尚不清楚这些模型在不同模态(如文本和图像)呈现时是否能识别各种不安全概念。为此,我们首先构建了UnsafeConcepts数据集,包含75个不安全概念(如“卐字符”、“性骚扰”和“攻击”)以及相关的1.5K张图像。随后,我们系统评估了VLMs的感知(概念识别)和对齐(伦理推理)能力。
评估发现
我们评估了八个流行的VLMs,发现尽管大多数VLMs能准确感知不安全概念,但有时会错误地将这些概念分类为安全。我们还发现开源VLMs在区分视觉和文本不安全概念时存在一致的模态差距。
方法
为弥合这一差距,我们引入了一种基于简化强化学习(RL)的方法,使用近端策略优化(PPO)来增强从图像中识别不安全概念的能力。我们的方法直接基于VLM响应生成奖励分数,无需收集人工标注的偏好数据来训练新的奖励模型。
实验结果
实验结果表明,我们的方法有效增强了VLMs在图像上的对齐能力,同时保持了通用性能。它在性能上优于监督微调(SFT)和直接偏好优化(DPO)等基线方法。
贡献
我们希望我们的数据集、评估结果和提出的对齐解决方案能为社区推动安全VLMs的发展做出贡献。
注释: 本文已入选第34届USENIX安全研讨会(2025年8月)。