跨模态视觉语言模型识别不安全概念的能力差距与优化方案

摘要

视觉语言模型（VLMs）因其内部伦理标准和强大推理能力，越来越多地被用于识别不安全或不适当的图像。然而，目前尚不清楚这些模型在不同模态（如文本和图像）呈现时是否能识别各种不安全概念。为此，我们首先构建了UnsafeConcepts数据集，包含75个不安全概念（如“卐字符”、“性骚扰”和“攻击”）以及相关的1.5K张图像。随后，我们系统评估了VLMs的感知（概念识别）和对齐（伦理推理）能力。

评估发现

我们评估了八个流行的VLMs，发现尽管大多数VLMs能准确感知不安全概念，但有时会错误地将这些概念分类为安全。我们还发现开源VLMs在区分视觉和文本不安全概念时存在一致的模态差距。

方法

为弥合这一差距，我们引入了一种基于简化强化学习（RL）的方法，使用近端策略优化（PPO）来增强从图像中识别不安全概念的能力。我们的方法直接基于VLM响应生成奖励分数，无需收集人工标注的偏好数据来训练新的奖励模型。

实验结果

实验结果表明，我们的方法有效增强了VLMs在图像上的对齐能力，同时保持了通用性能。它在性能上优于监督微调（SFT）和直接偏好优化（DPO）等基线方法。

贡献

我们希望我们的数据集、评估结果和提出的对齐解决方案能为社区推动安全VLMs的发展做出贡献。

注释： 本文已入选第34届USENIX安全研讨会（2025年8月）。