相似文本Logo自动识别技术突破

本文介绍通过对比训练和困难负样本选择相结合的方法,显著提升文本密集型Logo的零样本识别准确率,在五个公开数据集上实现3.5%-6.5%的性能提升,并已应用于可持续性标识识别和违规内容检测等实际场景。

改进具有相似文本的Logo自动识别技术

通过结合对比训练和困难负样本选择,建立了新的性能基准。

Logo识别是指识别特定Logo及其在图像或视频中位置的任务。这有助于创建安全可靠的购物体验,例如通过识别包含冒犯性符号或企业商标的图像。

技术挑战

Logo识别面临其他图像分类问题(如识别猫或狗品种)所没有的挑战,因为Logo类别数量通常要大一个数量级。此外,新的Logo、商标和符号不断被创建。

在解决零样本Logo识别问题时,标准解决方案包含两个阶段:(i) 检测所有可能包含Logo的图像区域;(ii) 将检测到的区域与不断发展的Logo原型集进行匹配。匹配过程具有挑战性,特别是对于与其他Logo非常相似或包含大量文本的Logo。

技术贡献

研究提出了两大主要贡献:首先,证明了利用图像-文本对比预训练(涉及将图像表示与其文本描述对齐)显著缓解了文本密集型Logo匹配的挑战。其次,提出了一种度量学习损失函数,能够更好地分离高度相关的Logo类别。

实验成果

在标准开源Logo识别数据集上的实验表明,该方法在五个公共Logo数据集上实现了新的最先进性能:LogoDet3K测试集上零样本召回率提升3.5%,OpenLogo提升4%,FlickrLogos-47提升6.5%,Logos In The Wild提升6.2%,BelgaLogo提升0.6%。

技术实现

对比训练中,模型被输入训练样本对;每个对包含两个正样本或一个正样本和一个负样本。模型不仅学习将正样本聚集在一起,还将正样本与负样本推开。通过挖掘训练数据中的困难负样本(其关联文本与不同类别的Logo相似),进一步提高了非常相似Logo的可分离性。

实际应用

该方法已用于在更大规模的Logo图像集上训练Logo嵌入器。当前部署的系统使用该嵌入模型,通过识别产品图像中的可持续性相关Logo,为人工审核筛选符合气候承诺友好条件的产品。同一系统还用于识别包含某些禁止内容或冒犯性符号的图像,且无需架构更新即可处理新出现的违规符号。

研究领域: 计算机视觉
技术标签: 零样本学习、目标检测、对比学习、WACV

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计