将文本转换为图像以进行产品发现
新的人工智能模型支持迭代优化结果并实现更好的色彩匹配。
生成对抗网络(GAN)自2014年首次推出以来,已被证明在生成合成图像方面非常成功。GAN由两个网络组成:一个试图生成逼真的假图像,另一个则尝试区分真假图像。这两个网络一起训练,它们之间的竞争可以快速收敛到一个有用的生成模型。
在一篇被IEEE冬季计算机视觉应用会议接受的论文中,描述了一种使用GAN的新方法,用于生成与文本产品描述匹配的服装示例。其理念是购物者可以使用视觉指南来优化文本查询,直到可靠地检索到他们正在寻找的产品。
例如,购物者可以搜索“女士黑色裤子”,然后添加“小码”一词,再添加“七分”一词,每添加一个新词,屏幕上的图像都会相应调整。保留旧视觉特征同时添加新特征的能力是该系统的新颖之处之一。另一个是色彩模型,它生成的图像颜色能更好地匹配文本输入。
图像生成器的输出(底部)与传统StackGAN模型的输出。新模型在添加新特征时更好地保留现有视觉特征,并更准确地渲染颜色。
测试了该模型与四个使用流行文本到图像GAN(称为StackGAN)的基线系统的性能。使用了图像生成GAN研究中常见的两个指标:初始分数和Fréchet初始距离。在不同图像属性上,该模型的初始分数比性能最佳的基线高22%至100%,而Fréchet初始距离低81%(数值越低越好)。
该模型实际上是对StackGAN的修改。StackGAN通过将图像合成问题分为两部分来简化:首先生成低分辨率图像;其次对该图像进行上采样以产生更高分辨率版本,并添加纹理和更自然的色彩。每个过程都有自己的GAN,将两个GAN堆叠起来即为模型名称的由来。
向该模型添加了另一个组件:长短期记忆(LSTM)。LSTM是按顺序处理序列输入的神经网络。给定输入对应的输出会考虑其之前的输入和输出。在对抗环境中将LSTM与GAN一起训练,使得网络能够在文本输入中添加连续单词时优化图像。由于LSTM是循环神经网络的一个示例,因此将该系统称为ReStGAN(循环StackGAN)。
从文本描述合成图像是一个艰巨的挑战,为使其更易于管理,将研究限制在三个相似的产品类别:裤子、牛仔裤和短裤。还标准化了用于训练模型的图像,去除背景并裁剪和调整图像大小,使其在形状和比例上相似。
辅助组件
模型的训练主要是无监督的,意味着训练数据主要包括产品标题和标准化图像,不需要任何额外的人工标注。但为了提高系统的稳定性,使用辅助分类器根据三个属性对模型生成的图像进行分类:服装类型(裤子、牛仔裤或短裤)、颜色以及是否描绘男装、女装或中性服装。辅助分类器在训练期间提供额外反馈,并帮助模型处理序列输入引入的复杂性。
在大多数处理文本的人工智能系统(包括本系统)中,文本输入被嵌入或映射到表示空间中的点,使得具有相似含义的单词倾向于聚集在一起。传统的词嵌入将颜色术语分组,但方式与人类感知经验不匹配。编码颜色的方式是该项工作的另一项创新。
六张不同的图像,均从文本字符串“女士黑色裤子”生成。左侧三张由该模型生成,右侧三张由标准StackGAN模型生成。
在称为LAB的表示空间中对颜色进行聚类或分组,该空间经过明确设计,使得点之间的距离对应于感知的颜色差异。使用该聚类创建查找表,将视觉相似的颜色映射到文本描述的相同特征。一方面,这种映射确保生成的图像会产生同一颜色的略微不同色调,而不是完全不同的颜色。它还通过减少需要学习的颜色类别数量,使模型的训练更易于管理。
初始分数(实验中使用的两个指标之一)根据两个标准评估图像:可识别性和多样性。可识别性分数基于现有计算机视觉模型对图像分类的信心。使用了三个不同的初始分数,基于分类器训练识别的三个特征:类型、颜色和性别。
在类型和性别初始分数上,ReStGAN比性能最佳的StackGAN模型分别提高了22%和27%。但在颜色初始分数上,改进达到了100%,表明色彩模型的实用性。