层次化表征提升图像检索准确率

图像匹配技术广泛应用于各类实际场景，例如某中心的StyleSnap或某购物应用的相机搜索功能，允许用户上传照片以查找相似商品图像。传统方法通过将图像映射到嵌入空间，并查找邻近映射来实现匹配。在某机构发表于WACV 2022的研究中，提出通过显式建模对象层次结构来提升神经网络生成图像表征的准确性。

以电商平台为例，商品分类存在天然层次结构：服装（超类）包含T恤和卫衣（子类），子类下又包含具体商品实例。研究证明，利用此类层次结构构建图像检索系统能显著提升效果。当缺乏现成层次结构时，论文还提出了自动构建方法。在五个数据集上对比九种现有方法的实验表明，该方案在多数评估指标中取得最优结果。

图像检索通常依赖深度度量学习(DML)，神经网络不仅学习输入到嵌入空间的映射，还学习该空间的距离度量函数。当前主流训练损失函数分为两类：

代理损失无需采样训练样本对，消除了配对采样的复杂性，训练速度更快。其中代理锚损失(proxy-anchor)在保持最快收敛速度的同时，达到了图像检索的最先进准确率。

本文提出的层次化代理损失(HPL)扩展了现有代理损失，其核心创新在于：

当缺乏预设层次结构时（如电商目录），研究提出在训练过程中对细粒度代理进行在线聚类来获取粗粒度代理。具体训练算法包含四个迭代步骤：

在proxy-NCA和proxy-anchor两种最先进代理损失基础上实现HPL，于五个标准度量学习数据集上的实验表明：

该技术已应用于某中心的多项图像检索服务，显著改善了用户体验和业务指标。研究团队将继续探索层次化表征在其他视觉任务中的应用潜力。