文本到图像转换在产品发现中的应用
生成对抗网络(GANs)自2014年首次提出以来,在生成合成图像方面已被证明非常成功。GAN包含两个网络:一个试图生成逼真的伪造图像,另一个则尝试区分伪造图像和真实样本。两个网络共同训练,它们之间的竞争可以快速收敛到一个有效的生成模型。
在IEEE冬季计算机视觉应用会议收录的论文中,描述了一种利用GAN生成与文本产品描述匹配的服装图像的新方法。其核心思想是让购物者通过视觉引导来优化文本查询,直到可靠地找到所需商品。
例如,购物者可以搜索"女士黑色裤子",然后添加"修身"一词,再添加"九分"一词,每添加一个新词,屏幕上的图像都会相应调整。在添加新特征时保留旧视觉特征的能力是该系统的创新之一,另一个创新是颜色模型,可以生成与文本输入颜色更匹配的图像。
技术架构创新
该模型实际上是对StackGAN的改进。StackGAN通过将图像合成问题分为两部分来简化流程:首先直接从文本生成低分辨率图像;然后对该图像进行上采样,生成更高分辨率的版本,并添加纹理和更自然的色彩。每个过程都有各自的GAN,堆叠两个GAN构成了模型名称。
在此模型中添加了长短期记忆网络(LSTM)组件。LSTM是按顺序处理序列输入的神经网络。给定输入对应的输出会考虑先前输入和输出的因素。在对抗环境中将LSTM与GAN共同训练,使网络能够在文本输入中连续添加词语时优化图像。由于LSTM是循环神经网络的典型代表,因此将该系统称为ReStGAN(循环StackGAN)。
实验设计与数据预处理
从文本描述合成图像是一个艰巨挑战。为使其更易处理,研究将范围限制在三个相似产品类别:裤子、牛仔裤和短裤。同时标准化了用于训练模型的图像,移除背景并进行裁剪和调整大小,使它们在形状和尺度上保持一致。
辅助分类器系统
模型的训练主要是无监督的,意味着训练数据主要包括产品标题和标准化图像,不需要任何额外的人工标注。但为提高系统稳定性,使用辅助分类器根据三个属性对模型生成的图像进行分类:服装类型(裤子、牛仔裤或短裤)、颜色以及描述的是男装、女装还是中性服装。辅助分类器在训练过程中提供额外反馈,帮助模型处理序列输入引入的复杂性。
色彩编码创新
在大多数处理文本的AI系统(包括本系统)中,文本输入被嵌入或映射到表示空间中的点,使得具有相似含义的词语倾向于聚集在一起。传统词嵌入将颜色术语分组,但方式不符合人类感知体验。颜色编码方式是本工作的另一个创新。
在专门设计的LAB表示空间中对颜色进行聚类或分组,该空间的设计使得点之间的距离对应于感知的颜色差异。利用该聚类创建查找表,将视觉相似的颜色映射到文本描述的相同特征。一方面,这种映射确保生成的图像会产生相同颜色的略微不同色调,而不是完全不同的颜色。它还通过减少需要学习的颜色类别数量,使模型训练更易管理。
性能评估指标
初始分数(实验中使用的两个指标之一)根据两个标准评估图像:可识别性和多样性。可识别性分数基于现有计算机视觉模型对图像分类的置信度。使用了三种不同的初始分数,基于分类器训练识别的三个特征:类型、颜色和性别。
在类型和性别初始分数上,ReStGAN相比性能最佳的StackGAN模型分别提高了22%和27%。但在颜色初始分数上,改进达到100%,证明了颜色模型的有效性。
实验数据:
- 类型识别准确率提升:22%
- 性别识别准确率提升:27%
- 颜色匹配准确率提升:100%
- Fréchet初始距离降低:81%(数值越低越好)