相似文本Logo自动识别技术突破

本文介绍通过对比训练和困难负样本选择相结合的方法,显著提升文本密集型Logo的识别准确率,在五大公开数据集上实现零样本识别性能新突破,最高提升达6.5%。

改进具有相似文本的Logo自动识别技术

结合对比训练和困难负样本选择的方法建立了新的性能基准。

会议:WACV 2023

技术背景

Logo识别是指识别特定Logo及其在图像或视频中位置的任务。这有助于创建安全可靠的购物体验,例如通过识别包含冒犯性符号或企业商标的图像。

Logo识别带来的挑战是其他图像分类问题(如识别猫或狗品种)所不具备的,因为Logo类别的数量通常要大一个数量级。此外,新的Logo、商标和符号不断被创建。

在一篇将于下个月召开的2023年冬季计算机视觉应用会议(WACV)上发表的论文中,解决了零样本Logo识别问题,即在模型训练期间无法访问所有可能类型的Logo。

技术方案

该问题的标准解决方案有两个阶段:

  1. 检测所有可能包含Logo的图像区域
  2. 将检测到的区域与不断发展的Logo原型集进行匹配

匹配过程具有挑战性,特别是对于与其他Logo非常相似或包含大量文本的Logo。

论文做出了两个主要贡献:

  1. 利用图像-文本对比预训练(涉及将图像表示与其文本描述对齐)显著缓解了文本密集型Logo匹配的挑战
  2. 提出了一种度量学习损失函数,能够更好地分离高度相关的Logo类别

实验成果

在标准开源Logo识别数据集上的实验中,该方法在五个公共Logo数据集上实现了新的最先进性能:

  • LogoDet3K测试集零样本召回率提升3.5%
  • OpenLogo提升4%
  • FlickrLogos-47提升6.5%
  • Logos In The Wild提升6.2%
  • BelgaLogo提升0.6%

技术核心:对比学习

零样本Logo识别严重依赖于嵌入模型,用于将查询区域与不断发展的裁剪Logo图像集进行匹配。

研究发现,传统的预训练计算机视觉模型在表示文本密集型Logo类别方面表现不佳。通过图像-文本对比训练(一种度量学习),可以帮助视觉嵌入器隐式识别图像中的文本。

在对比训练中,通过挖掘训练数据中的困难负样本(其相关文本与不同类别Logo相似的Logo)来进一步提高非常相似Logo的可分离性。例如,“Heinz"是"Heineken"的困难负样本,因为它们共享相同的前四个字母。

实际应用

该方法已用于在更大规模的Logo图像集上训练Logo嵌入器。当前部署的系统使用该嵌入模型,通过识别产品图像中的可持续性相关Logo,为人工审核筛选符合气候承诺友好资格的产品。同一系统还用于识别包含某些禁止内容或冒犯性符号的图像。

值得注意的是,该系统可以在识别新的冒犯性符号时立即采取行动,而无需对架构进行任何更新。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计