改进具有相似文本的Logo自动识别技术
通过结合对比训练和困难负样本选择,建立了新的性能基准。
Logo识别是指识别特定Logo及其在图像或视频中位置的任务。这有助于创建安全可靠的购物体验,例如通过识别包含冒犯性符号或企业商标的图像。
技术挑战
Logo识别面临其他图像分类问题(如识别猫或狗品种)所没有的挑战,因为Logo类别数量通常要大一个数量级。此外,新的Logo、商标和符号不断被创建。
在解决零样本Logo识别问题时,标准解决方案包含两个阶段:(i) 检测所有可能包含Logo的图像区域;(ii) 将检测到的区域与不断发展的Logo原型集进行匹配。匹配过程具有挑战性,特别是对于与其他Logo非常相似或包含大量文本的Logo。
技术贡献
研究提出了两大主要贡献:首先,证明了利用图像-文本对比预训练(涉及将图像表示与其文本描述对齐)显著缓解了文本密集型Logo匹配的挑战。其次,提出了一种度量学习损失函数,能够更好地分离高度相关的Logo类别。
实验成果
在标准开源Logo识别数据集上的实验表明,该方法在五个公共Logo数据集上实现了新的最先进性能:LogoDet3K测试集上零样本召回率提升3.5%,OpenLogo提升4%,FlickrLogos-47提升6.5%,Logos In The Wild提升6.2%,BelgaLogo提升0.6%。
技术实现
对比训练中,模型被输入训练样本对;每个对包含两个正样本或一个正样本和一个负样本。模型不仅学习将正样本聚集在一起,还将正样本与负样本推开。通过挖掘训练数据中的困难负样本(其关联文本与不同类别的Logo相似),进一步提高了非常相似Logo的可分离性。
实际应用
该方法已用于在更大规模的Logo图像集上训练Logo嵌入器。当前部署的系统使用该嵌入模型,通过识别产品图像中的可持续性相关Logo,为人工审核筛选符合气候承诺友好条件的产品。同一系统还用于识别包含某些禁止内容或冒犯性符号的图像,且无需架构更新即可处理新出现的违规符号。
研究领域: 计算机视觉
技术标签: 零样本学习、目标检测、对比学习、WACV