使用计算机视觉清除产品目录错误

在某中心的在线商店中，产品页面通常包含指向产品变体的链接，这些变体在颜色、尺寸、款式等方面有所不同。然而，产品目录中有时会出现错误，导致链接到不相关的产品或出现重复列表，这可能影响客户的购物体验。

在今年的冬季计算机视觉应用会议（WACV）上，我们提出了一种自动识别产品变体列表错误的新方法，该方法使用计算机视觉来判断不同图像中描绘的产品是否相同或不同。

方法框架

我们将该问题构建为度量学习问题，这意味着机器学习模型学习在嵌入空间中测量产品向量表示之间距离的函数。相同产品的嵌入应该相似，而不同产品的嵌入应该不同。由于学习到的特征嵌入通常具有很好的泛化能力，该模型可以应用于训练期间未见过的产品。

左上：正常变体列表；右上：错误列表（图像显示错误产品）；底部：重复变体（同一产品的两个独立详情页）

我们的模型是多模态的，其输入包括产品图像和产品标题。唯一的监督信号是包含所有变体的总体产品描述符。

在实验中，我们将我们的模型与类似的多模态基准模型进行比较，发现它将精确率-召回率曲线下面积（PR-AUC，评估假阳性和假阴性之间的权衡）提高了5.2%。

使用产品标题的目的是引导模型学习更稳健和相关的表示。例如，标题提供的上下文帮助模型聚焦于图像的相关区域，使其对嘈杂背景更具鲁棒性。它还有助于解决由于图像中出现多个对象而产生的歧义。

产品标题帮助模型识别产品图像中的感兴趣区域

我们的模型有两个分支：一个全局分支和一个局部分支。全局网络将整个图像作为输入，并根据产品标题确定要聚焦的图像部分。该信息用于裁剪输入图像，裁剪后的图像传递到局部分支。

每个分支的主干是卷积神经网络（CNN），这是一种在计算机视觉中常用的网络类型，它将一系列相同的滤波器应用于图像表示的各个部分。

MAPS（多模态产品相似性注意力）网络架构

CNN提取的特征通过自注意力机制进行增强，以更好地捕捉空间依赖性。增强后的特征然后传递到空间和通道注意力层。空间注意力（即"关注哪里"）使用标题来关注图像的相关区域。通道注意力（即"关注什么"）强调图像表示的相关特征。

空间注意力和通道注意力都基于标题信息的自注意力嵌入——即根据其他单词权衡标题中每个单词的嵌入。

我们使用正例和负例进行训练。对于正例，我们简单地配对相同总体产品描述符的实例。

左列：相同产品被预测为相同；右列：不同产品被预测为不同

为了让模型高效学习，负例必须具有挑战性：教导模型区分鞋子和花园耙子无助于区分相似类型的鞋子。因此对于负例，我们配对同一子类别中的产品。这带来了性能的显著提升。

为了测试我们的方法，我们创建了一个包含来自三个不同产品类别的图像和标题的数据集。在实验中，我们使用仅图像模型和最近使用产品属性关注图像的多模态方法作为基线。

与仅图像模型相比，我们的方法使PR-AUC提高了高达17%。与多模态基准相比，改进为5.2%。