改进具有相似文本的Logo自动识别技术

通过结合对比训练和困难负样本选择，建立了新的性能基准。

Logo识别是指识别特定Logo及其在图像或视频中位置的任务。这有助于创建安全可靠的购物体验，例如通过识别包含冒犯性符号或企业商标的图像。

技术挑战

Logo识别面临其他图像分类问题（如识别猫或狗品种）所没有的挑战，因为Logo类别数量通常要大一个数量级。此外，新的Logo、商标和符号不断被创建。

在解决零样本Logo识别问题时，标准解决方案包含两个阶段：(i) 检测所有可能包含Logo的图像区域；(ii) 将检测到的区域与不断发展的Logo原型集进行匹配。匹配过程具有挑战性，特别是对于与其他Logo非常相似或包含大量文本的Logo。

研究提出了两大主要贡献：首先，证明了利用图像-文本对比预训练（涉及将图像表示与其文本描述对齐）显著缓解了文本密集型Logo匹配的挑战。其次，提出了一种度量学习损失函数，能够更好地分离高度相关的Logo类别。

在标准开源Logo识别数据集上的实验表明，该方法在五个公共Logo数据集上实现了新的最先进性能：LogoDet3K测试集上零样本召回率提升3.5%，OpenLogo提升4%，FlickrLogos-47提升6.5%，Logos In The Wild提升6.2%，BelgaLogo提升0.6%。

对比训练中，模型被输入训练样本对；每个对包含两个正样本或一个正样本和一个负样本。模型不仅学习将正样本聚集在一起，还将正样本与负样本推开。通过挖掘训练数据中的困难负样本（其关联文本与不同类别的Logo相似），进一步提高了非常相似Logo的可分离性。

该方法已用于在更大规模的Logo图像集上训练Logo嵌入器。当前部署的系统使用该嵌入模型，通过识别产品图像中的可持续性相关Logo，为人工审核筛选符合气候承诺友好条件的产品。同一系统还用于识别包含某些禁止内容或冒犯性符号的图像，且无需架构更新即可处理新出现的违规符号。

研究领域: 计算机视觉
技术标签: 零样本学习、目标检测、对比学习、WACV