计算机视觉技术自动检测产品目录错误
某中心商店的产品页面通常会包含产品变体的链接,这些变体在颜色、尺寸、款式等方面有所不同。然而,产品目录有时会出现错误,导致链接到不相关产品或重复列表,影响客户购物体验。
在今年冬季计算机视觉应用会议(WACV)上,提出了一种自动识别产品变体列表错误的新方法,该方法使用计算机视觉技术判断不同图像中的产品是否相同。该方法将问题构建为度量学习问题,机器学习模型学习在嵌入空间中测量产品向量表示之间距离的函数。相同产品的嵌入应该相似,而不同产品的嵌入应该不同。
方法概述
该模型是多模态的,输入包括产品图像和产品标题。唯一的监督信号是包含所有变体的总体产品描述符。实验表明,与类似的多模态基准模型相比,该方法使精确率-召回率曲线下面积(PR-AUC)提高了5.2%。
使用产品标题的目的是引导模型学习更健壮和相关的表示。例如,标题提供的上下文帮助模型聚焦图像的相关区域,使其对噪声背景更具鲁棒性。它还有助于解决因图像中出现多个对象而产生的歧义。
网络架构
模型有两个分支:全局分支和局部分支。全局网络以整个图像作为输入,根据产品标题确定应关注图像的哪部分。该信息用于裁剪输入图像,裁剪后的图像传递到局部分支。
每个分支的主干是卷积神经网络(CNN),这是一种常用于计算机视觉的网络类型,对图像表示的各个部分应用一系列相同的滤波器。CNN提取的特征通过自注意力机制增强,以更好地捕捉空间依赖性。增强的特征然后传递到空间和通道注意力层。
空间注意力(即"关注哪里")使用标题关注图像的相关区域。通道注意力(即"关注什么")强调图像表示的相关特征。空间注意力和通道注意力都基于标题信息的自注意嵌入,即根据标题中其他单词权衡每个单词的嵌入。
训练与结果
训练同时使用正例和负例。对于正例,简单地配对具有相同总体产品描述符的实例。为了使模型高效学习,负例必须具有挑战性:教导模型区分例如鞋子和花园耙子无助于区分相似类型的鞋子。因此对于负例,我们配对相同子类别中的产品,这显著提高了性能。
测试中创建了包含三个不同产品类别的图像和标题的数据集。作为实验基线,使用了仅图像模型和最近使用产品属性关注图像的多模态方法。与仅图像模型相比,该方法使PR-AUC提高了17%。与多模态基准相比,改进为5.2%。