基于Transformer的食品图像食谱检索技术

本文介绍了一种基于Transformer架构和自监督学习的创新方法,用于实现食品图像到烹饪食谱的跨模态检索。该方法通过分层Transformer处理食谱文本,结合ResNet和Vision Transformer处理图像,在Recipe1M数据集上实现了92.9%的Recall@10检索精度。

使用食品图像查找烹饪食谱的新方法

在CVPR 2021会议上,研究人员提出了一种基于Transformer架构和自监督学习的跨模态图像-食谱检索方法,该方法在性能上达到了业界领先水平。

技术架构

该方法使用两个独立的编码器函数:一个用于处理食谱文本,另一个用于处理图像。对于多句子输入的食谱组件(如配料和说明),采用分层Transformer架构;对于单句子输入(如食谱标题),采用非分层架构。图像输入则使用成熟的ResNet和Vision Transformer编码器。

训练方法

模型训练采用两种损失函数:

  • 监督损失函数Lpair:确保相同训练样本的文本和图像表征在高维空间中相互接近
  • 自监督损失函数Lrec:确保同一食谱不同组件的表征在表征空间中相互接近

值得注意的是,自监督损失不需要图像输入,因此可以处理网络食谱数据中常见的纯文本样本(在训练集中占比达66%)。

性能表现

该方法在Recipe1M数据库上进行了双向跨模态检索测试:

  • 图像到食谱检索任务中,在1000个元素的食谱数据库上实现了92.9%的Recall@10
  • 能够在意料级别进行细粒度匹配(如识别"面包"、“大蒜”、“面包块"等具体配料)

实验结果表明,新的自监督损失项和额外的训练数据都有助于提升检索性能。

技术价值

这项技术使得用户可以通过食品图像快速找到对应的烹饪食谱,为食品图像识别和跨模态检索领域提供了新的解决方案。相关代码和模型权重已公开提供。

(研究领域:计算机视觉、搜索与信息检索;标签:自监督学习、CVPR)

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计