GAN图像生成器的非线性控制方法

本文介绍了一种通过非线性轨迹控制GAN图像生成器输出的新技术,能够在固定某些图像属性的同时改变其他特征,相比线性方法提供更精确的控制能力,适用于人脸和室内场景等多种图像类型。

方法实现GAN图像生成器输出的更好控制

通过绘制生成对抗网络潜在空间中的非线性轨迹,该方法能够使某些图像属性发生变化,同时保持其他属性固定。

技术背景

生成对抗网络是一种能够产生非常逼真合成图像的技术。从一组真实图像中,GAN学习从潜在分布到训练数据集中表示的图像分布的映射。

通过控制GAN来修改图像是一个活跃的研究课题,其应用包括数据集创建和增强、图像编辑和娱乐。研究人员已经开发了越来越复杂的技术来探索和构建潜在空间,以了解在空间中移动如何转化为合成图像属性的修改。

新技术突破

在一篇发表于欧洲计算机视觉会议的论文中,我们描述了一种能够对GAN输出提供精确控制的新技术。与先前技术不同,我们的方法可以在改变其他属性的同时保持选定图像属性稳定——比如房间中一个沙发的位置和外观。

先前控制GAN的方法依赖于潜在空间中的线性轨迹,沿着这些轨迹某些特征会发生变化——比如生成面部的年龄,或者它们微笑或皱眉的程度。研究人员要么寻找潜在空间中的现有轴,在这种情况下与图像特征的相关性很少精确;要么有意构建空间使其适合线性轨迹,在这种情况下他们必须提前知道想要控制哪些图像特征。

方法优势

我们的方法不是将空间轴与预定特征关联,而是通过GAN的潜在空间绘制非线性轨迹。因此,它可以与现有的GAN一起工作,无论其潜在空间的结构如何。这意味着原则上我们可以控制多个任意属性。

同样地,我们可以控制人类难以准确注释的特征——因此难以通过修改潜在空间结构来捕捉。例如,对图像进行傅里叶变换,我们可以固定高频特性并改变低频特性,产生明显不同但变化难以解释的图像:

  • 源图像(最左)
  • 随后三个图像中低频特性保持稳定,而高频特性发生变化
  • 另外三个图像中情况相反

最后,大多数关于可控GAN的工作都集中在合成面部上,这在一定程度上简化了问题,因为相同的面部特征往往位于图像的近似相同区域。我们的方法由于通过任意潜在空间绘制局部轨迹,可以处理更多样化的图像类型。

技术原理:瑞利商

我们的方法基于这样的直觉:对于潜在空间内的任何点,都存在期望属性不发生变化的局部轨迹。我们将此类轨迹的计算视为优化问题——特别是瑞利商。

我们假设对于潜在空间中的任何点,都有一个函数将相应图像映射到某种特征集。对于像头发长度或眼睛颜色这样的特征,该函数将是一个在相关分类任务上训练的神经网络;对于高频和低频图像特征,该函数是一个闭式变换,如傅里叶变换。

目标是找到通过潜在空间的局部轨迹,最小化某些函数输出的变化,同时最大化其他函数输出的变化。优化这些变化的比率是瑞利商最大化的一个实例。

我们使用局部线性展开来近似空间中的相对位移——基于函数在某点导数的线性近似。组装导数矩阵——雅可比矩阵,测量不同维度上的变化或变化率——需要我们在潜在空间中采样局部点。一旦完成,瑞利商的最大化就有一个闭式解,这给了我们通过空间的最优轨迹。

我们沿着该轨迹遍历一小段距离,然后重新计算新的瑞利商。路径点之间的距离是方法的一个超参数,根据函数而变化。在我们的实验中,我们选择的参数导致路径点对应图像之间出现小而可感知的差异。

实验验证

在这些实验中,我们将我们的方法与三种先前在潜在空间中找到线性轨迹的方法进行了比较,使用了在两个不同数据集上训练的GAN,一个是面部集合,一个是客厅场景集合。我们发现,在所有情况下,我们的方法在固定要固定的特征和改变要改变的特征方面都比基线方法做得更好。

研究领域

计算机视觉

标签

生成对抗网络、合成数据生成、欧洲计算机视觉会议

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计