文本到图像转换技术助力产品发现

本文介绍了一种基于生成对抗网络和长短时记忆网络的文本到图像合成技术,能够根据文本描述生成服装图像并支持迭代优化。该系统在颜色匹配和特征保持方面表现优异,相比基准模型在各项评估指标上均有显著提升。

文本到图像转换技术助力产品发现

新型AI模型支持结果迭代优化和更好的颜色匹配。

生成对抗网络自2014年首次推出以来,在生成合成图像方面已被证明非常成功。GAN包含两个网络:一个试图生成逼真的伪造图像,另一个则试图区分伪造图像和真实样本。这两个网络一起训练,它们之间的竞争可以快速收敛到一个有用的生成模型。

在一篇被IEEE冬季计算机视觉应用会议接收的论文中,我们描述了GAN的一种新用途:生成与文本产品描述匹配的服装示例。其理念是购物者可以使用视觉指南来优化文本查询,直到可靠地检索到他们正在寻找的产品。

例如,购物者可以搜索“女士黑色裤子”,然后添加“小号”一词,再添加“七分”一词,每添加一个新词,屏幕上的图像都会相应调整。在添加新特征时保留旧视觉特征的能力是我们系统的新颖之处之一。另一个特点是颜色模型,可以生成颜色更符合文本输入的图像。

我们测试了模型性能,与使用流行文本到图像GAN(StackGAN)的四个不同基线系统进行了比较。我们使用了图像生成GAN研究中常见的两个指标:初始分数和弗雷歇初始距离。在不同图像属性上,我们模型的初始分数比表现最佳的基线高22%到100%,而其弗雷歇初始距离则降低了81%(数值越低越好)。

我们的模型实际上是对StackGAN的改进。StackGAN通过将图像合成问题分为两部分来简化:首先,直接从文本生成低分辨率图像;其次,对该图像进行上采样以生成更高分辨率版本,并添加纹理和更自然的色彩。每个过程都有自己的GAN,将两个GAN堆叠起来即为模型名称的由来。

我们向该模型添加了另一个组件:长短时记忆网络。LSTM是按顺序处理序列输入的神经网络。给定输入对应的输出会同时考虑该输入及其前面的输入和输出。在对抗环境中将LSTM与GAN一起训练,使我们的网络能够在文本输入中连续添加单词时优化图像。由于LSTM是循环神经网络的一个例子,我们将系统称为ReStGAN。

从文本描述合成图像是一个艰巨挑战,为使其更易处理,我们将研究范围限制在三个相似的产品类别:裤子、牛仔裤和短裤。我们还标准化了用于训练模型的图像,去除背景并裁剪和调整图像大小,使它们在形状和比例上相似。

辅助系统

我们模型的训练基本上是无监督的,这意味着训练数据主要包括产品标题和标准化图像,不需要任何额外的人工标注。但为了提高系统稳定性,我们使用辅助分类器根据三个属性对模型生成的图像进行分类:服装类型(裤子、牛仔裤或短裤)、颜色以及描述的是男装、女装还是中性服装。辅助分类器在训练期间提供额外反馈,并帮助模型处理序列输入引入的复杂性。

在大多数处理文本的AI系统(包括我们的系统)中,文本输入被嵌入或映射到表示空间中的点,使得具有相似含义的单词倾向于聚集在一起。传统的词嵌入将颜色术语分组在一起,但方式与人类感知体验不匹配。我们编码颜色的方式是工作的另一个创新点。

我们在称为LAB的表示空间中对颜色进行聚类或分组,该空间经过明确设计,使得点之间的距离与感知的颜色差异相对应。使用该聚类,我们创建一个查找表,将视觉上相似的颜色映射到文本描述的相同特征。一方面,这种映射确保我们生成的图像将产生相同颜色的略微不同色调,而不是完全不同的颜色。它还通过减少模型需要学习的颜色类别数量,使模型训练更易于管理。

初始分数(我们实验中使用的两个指标之一)根据两个标准评估图像:可识别性和多样性。可识别性分数基于现有计算机视觉模型对图像分类的置信度。我们使用了三个不同的初始分数,基于分类器训练识别的三个特征:类型、颜色和性别。

在类型和性别初始分数上,ReStGAN比表现最佳的StackGAN模型分别提高了22%和27%。但在颜色初始分数上,改进达到了100%,表明我们颜色模型的实用性。

研究领域

计算机视觉

标签

生成对抗网络 WACV 循环神经网络

相关出版物

ReStGAN:通过文本到图像合成实现视觉引导购物体验的一步

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计