利用计算机视觉识别产品目录错误
在某中心的在线商店中,产品页面通常包含指向产品变体的链接,这些变体在颜色、尺寸、款式等方面有所不同。然而,产品目录中有时会出现错误,导致链接到不相关的产品或出现重复列表,从而影响客户的购物体验。
在今年的冬季计算机视觉应用会议(WACV)上,提出了一种自动识别产品变体列表错误的新方法,该方法使用计算机视觉技术来判断不同图像中描绘的产品是否相同或不同。
该方法将问题构建为一个度量学习问题,即机器学习模型学习在嵌入空间中测量产品向量表示之间距离的函数。同一产品的嵌入应该相似,而不同产品的嵌入应该不同。由于学习到的特征嵌入通常具有良好的泛化能力,该模型可以应用于训练期间未见过的产品。
该模型是多模态的,其输入包括产品图像和产品标题。唯一的监督信号是包含所有变体的总体产品描述符。在实验中,将该模型与类似的多模态基准模型进行了比较,发现其将精确召回曲线下面积(PR-AUC,用于评估假阳性和假阴性之间的权衡)提高了5.2%。
方法
使用产品标题的目的是指导模型学习更鲁棒和相关的表示。例如,标题提供的上下文帮助模型聚焦于图像的相关区域,使其对嘈杂背景更具鲁棒性。它还有助于解决由于图像中出现多个对象而产生的歧义。
架构
该模型有两个分支:一个全局分支和一个局部分支。全局网络以整个图像作为输入,并根据产品标题确定要聚焦的图像部分。该信息用于裁剪输入图像,裁剪后的图像传递到局部分支。每个分支的骨干是一个卷积神经网络(CNN),这是一种在计算机视觉中常用的网络类型,它对图像表示的部分应用一系列相同的过滤器。
CNN提取的特征通过自注意力机制进行增强,以更好地捕捉空间依赖性。增强后的特征然后传递到空间和通道注意力层。空间注意力(即“关注哪里”)使用标题来关注图像的相关区域。通道注意力(即“关注什么”)强调图像表示的相关特征。空间注意力和通道注意力都基于标题信息的自注意力嵌入,即根据其他单词对标题中的每个单词进行加权。
训练使用正例和负例。对于正例,简单地配对同一总体产品描述符的实例。为了使模型高效学习,负例必须具有挑战性:教导模型区分鞋子和花园耙子无助于区分相似类型的鞋子。因此,对于负例,将同一子类别中的产品进行配对。这显著提高了性能。
为了测试该方法,创建了一个包含来自三个不同产品类别的图像和标题的数据集。在实验中,使用仅图像模型和一种最近的多模态方法作为基线,该方法使用产品属性来关注图像。与仅图像模型相比,该方法将PR-AUC提高了高达17%。与多模态基准相比,改进为5.2%。
研究领域
计算机视觉
标签
注意力机制、WACV、卷积神经网络(CNNs)