量化图像的“概念相似性”
新方法利用视觉语言模型将先前需要人工判断的比较形式化。
概念相似性
定义概念距离度量面临三个主要挑战:
- 随机性主导:任何两幅图像都会存在大量微小差异,这些差异会压倒结构相似性,因此将概念相似性映射到像素值相似性十分困难
- 无规范属性:图像哪些属性对概念相似性重要无法先验指定——有时物体颜色、场景位置或文本字体可能无关紧要,有时又可能至关重要
- 对抗性区分:试图破坏相似性检测器的人可能会对图像进行表面修改(如改变特定物体或图形的颜色或方向),希望通过足够多的此类差异来降低相似性度量。优秀度量标准需要能够抵抗此类对抗技术
方法原理
该方法通过以下方式解决这些困难:
- 首先构建图像的准确描述,然后再考虑描述之间的差异,不提供对手可利用的初级区分概念
- 描述从简短开始,必然忽略随机变化
核心思想是评估区分能力随描述长度的变化:如果两幅图像容易被简短描述区分,则相似度低;如果需要大量文本才能可靠区分,则相似度高。由于该方法依赖于逐渐细化的自然语言描述,因此也具有可解释性:人类观察者可以轻松确定图像获得特定相似性分数的确切原因。
技术实现
在模型中:
- 使用自然语言描述作为假设空间,假设具有长度概念(类似于柯尔莫哥洛夫复杂度中的程序长度概念)
- 定义解码器计算给定假设指向给定图像的概率,实践中使用大型视觉语言模型
- 概念相似性取决于使用不同长度自然语言假设描述图像的效果
- 通过发现有限长度假设的分布(可能是目标的描述)将挑战转化为可优化问题
距离度量定义: 给定两幅图像A和B,以及每幅图像在给定长度的近最优描述:
- 计算A假设描述两幅图像的概率差
- 对B假设重复此过程
- 两个差异的平均值即为该假设长度的概念距离
基于距离随假设长度变化的速率来定义度量:变化慢表示相似(难以区分),变化快表示容易区分。当需要使用单个值评分图像相似性时,使用距离函数在假设长度范围内曲线下的面积。
实验验证
在两个人类标注者根据相似性评分图像对的数据集上,将该方法与使用对比学习嵌入的最先进技术进行比较。在两个数据集上,该方法更好地预测了人类标注,平均提高9%。
未来方向
目前仅使用视觉语言模型的文本来测量距离,直接测量视觉属性可能会提供额外的区分层,同时避免对随机性敏感或对抗性操纵的风险,这一可能性正在持续研究中。