层次化表征优化图像检索效果
图像匹配技术广泛应用于各类实际场景,例如某中心的StyleSnap或某购物应用的相机搜索功能,允许用户上传照片以查找相似商品图像。传统方法通过将图像映射到嵌入空间,并查找邻近映射来实现匹配。在某机构发表于WACV 2022的研究中,提出通过显式建模对象层次结构来提升神经网络生成图像表征的准确性。
层次化数据结构优势
以电商平台为例,商品分类存在天然层次结构:服装(超类)包含T恤和卫衣(子类),子类下又包含具体商品实例。研究证明,利用此类层次结构构建图像检索系统能显著提升效果。当缺乏现成层次结构时,论文还提出了自动构建方法。在五个数据集上对比九种现有方法的实验表明,该方案在多数评估指标中取得最优结果。
深度度量学习技术
图像检索通常依赖深度度量学习(DML),神经网络不仅学习输入到嵌入空间的映射,还学习该空间的距离度量函数。当前主流训练损失函数分为两类:
- 成对损失(如对比损失、三元组损失):通过正负样本对计算,拉近正样本对距离,推远负样本对
- 代理损失(如proxy-NCA、proxy-anchor):学习代表类平均位置的代理嵌入(类中心点)
代理损失无需采样训练样本对,消除了配对采样的复杂性,训练速度更快。其中代理锚损失(proxy-anchor)在保持最快收敛速度的同时,达到了图像检索的最先进准确率。
层次化代理损失创新
本文提出的层次化代理损失(HPL)扩展了现有代理损失,其核心创新在于:
- 构建多级代理层次结构,每个训练图像在每层分配单一代理
- 损失函数计算为所有层级代理损失的加权和
- 每层图像被拉向指定代理,同时远离其他代理,从而诱导网络按层次分组学习特征
当缺乏预设层次结构时(如电商目录),研究提出在训练过程中对细粒度代理进行在线聚类来获取粗粒度代理。具体训练算法包含四个迭代步骤:
- 对细粒度代理运行k-means聚类获取粗粒度代理
- 训练网络T次迭代,同时更新网络参数和细粒度代理
- 每T次迭代后更新样本到粗粒度代理的分配
- 重复2-3步直至收敛
实验结果
在proxy-NCA和proxy-anchor两种最先进代理损失基础上实现HPL,于五个标准度量学习数据集上的实验表明:
- HPL持续提升两种基线的检索准确率
- 在多数情况下创造新的最先进记录
- 完整实验评估结果详见论文
该技术已应用于某中心的多项图像检索服务,显著改善了用户体验和业务指标。研究团队将继续探索层次化表征在其他视觉任务中的应用潜力。