跨模态视觉语言模型识别不安全概念的能力差距与优化方案

Fri, 05 Sep 2025 22:51:03 +0800

跨模态视觉语言模型识别不安全概念的能力差距与优化方案

摘要

视觉语言模型（VLMs）因其内部伦理标准和强大推理能力，越来越多地被用于识别不安全或不适当的图像。然而，目前尚不清楚这些模型在不同模态（如文本和图像）呈现时是否能识别各种不安全概念。为此，我们首先构建了UnsafeConcepts数据集，包含75个不安全概念（如“卐字符”、“性骚扰”和“攻击”）以及相关的1.5K张图像。随后，我们系统评估了VLMs的感知（概念识别）和对齐（伦理推理）能力。

安全对齐 on 办公AI智能小助手

跨模态视觉语言模型识别不安全概念的能力差距与优化方案

跨模态视觉语言模型识别不安全概念的能力差距与优化方案

摘要