更可靠的最近邻搜索:深度度量学习新方法
深度度量学习(DML)是训练对比学习模型(如视觉语言模型CLIP)的常用技术,它通过结构化表示空间来区分不同类样本并拉近同类样本。然而传统DML存在类内和类间距离不一致的问题,导致单一距离阈值难以满足实际应用的误报率和漏报率要求。
在ICLR 2024会议上,我们提出了一种提升DML嵌入距离一致性的方法。首先设计了评估指标OPIS(操作点不一致性分数),证明模型精度优化与阈值一致性无关。随后提出可嵌入任意损失函数的阈值一致性边界(TCM)损失项,通过正则化困难正样本(类内相似度低)和困难负样本(类间相似度高)的距离,使距离阈值更具一致性。
实验在四个图像检索基准数据集上进行,使用残差网络和视觉Transformer架构,结合两种先进DML损失函数进行测试。添加TCM损失项后,16组对比实验全部显示阈值一致性提升,OPIS分数最大降低77.3%,其中14组实验准确率提升(最高3.6%),仅2组轻微下降(最大0.2%)。
一致性度量原理
DML模型通过对比学习训练,但即使高精度模型也存在类间距离差异。OPIS指标基于不同阈值下的F1分数(综合误报和漏报率)计算效用曲线,通过校准范围内效用值与平均值的差异量化不一致性。
TCM损失机制
TCM损失包含两个参数:正边界用于挖掘困难正样本对,负边界用于挖掘困难负样本对。损失项仅对困难样本施加距离差异惩罚,如同“局部检查器”调整边界区域样本分布,避免过度分离或紧凑。在MNIST手写数字数据集上的可视化实验显示,添加TCM损失后类簇更紧凑、类间分离更清晰。
该方法无需额外计算成本,可灵活适配各种模型和损失函数,为大规模应用中的阈值设置提供了实用解决方案。