GAN图像生成器的精准控制新方法

本文介绍了一种通过非线性轨迹在GAN潜在空间中实现精准图像属性控制的新技术。该方法能够固定特定图像特征(如物体位置)同时调整其他属性,无需预定义潜在空间结构,支持多属性并行控制,在面部图像和室内场景数据集中均优于线性基线方法。

方法实现GAN图像生成器的更好控制

通过绘制生成对抗网络(GAN)潜在空间中的非线性轨迹,该方法能够使某些图像属性发生变化,同时保持其他属性固定。

技术背景

生成对抗网络(GAN)是一种能够生成非常逼真的合成图像的技术。从一组真实图像中,GAN学习从潜在分布到训练数据集中表示的图像分布的映射。通过控制GAN来修改图像是一个活跃的研究课题,其应用包括数据集创建和增强、图像编辑和娱乐。

研究人员已经开发了更复杂的技术来探索和构建潜在空间,以了解在空间中的移动如何转化为合成图像属性的修改。在今年欧洲计算机视觉会议(ECCV)上发表的论文中,描述了一种新技术,能够对GAN输出提供精确控制。与现有技术不同,该方法可以保持选定的图像属性稳定(例如房间中一个沙发的位置和外观),同时改变其他属性。

技术突破

先前控制GAN的方法依赖于潜在空间中的线性轨迹,沿着这些轨迹某些特征会发生变化(例如生成面部的年龄,或者微笑或皱眉的程度)。研究人员要么寻找潜在空间中的现有轴(在这种情况下与图像特征的相关性很少精确),要么有意构建空间以便于线性轨迹(在这种情况下必须提前知道要控制哪些图像特征)。

新方法不是将空间轴与预定特征相关联,而是通过GAN的潜在空间绘制非线性轨迹。因此,它可以与现有的GAN一起工作,无论其潜在空间的结构如何。这意味着原则上可以控制多个任意属性。

同样地,可以控制人类难以准确注释的特征(因此难以通过修改潜在空间的结构来捕获)。例如,对图像进行傅里叶变换,可以固定高频特性并改变低频特性,产生明显不同的图像,然而这些变化难以解释:

最后,大多数关于可控GAN的工作都集中在合成面部上,这在一定程度上简化了问题,因为相同的面部特征往往位于图像的大致相同区域。新方法通过任意潜在空间绘制局部轨迹,可以处理更多样化的图像类型。

瑞利商方法

该方法基于这样的直觉:对于潜在空间内的任何点,都存在所需属性不变的局部轨迹。将这种轨迹的计算视为优化问题,特别是瑞利商。

假设对于潜在空间中的任何点,都有一个函数将相应的图像映射到某种特征集。对于像头发长度或眼睛颜色这样的特征,该函数将是一个经过相关分类任务训练的神经网络;对于高频和低频图像特征,该函数是一个闭式变换,如傅里叶变换。

目的是找到一个通过潜在空间的局部轨迹,最小化某些函数输出的变化,同时最大化其他函数输出的变化。优化这些变化的比率是瑞利商最大化的一个实例。

使用局部线性展开(基于函数在某点导数的线性近似)来近似空间中的相对位移。组装导数矩阵(雅可比矩阵,测量不同维度的变化或变化率)需要在潜在空间中采样局部点。一旦完成,瑞利商的最大化有一个闭式解,从而给出通过空间的最佳轨迹。

沿着该轨迹移动一小段距离,然后重新计算新的瑞利商。路径点之间的距离是该方法的一个超参数,根据函数而变化。在实验中,选择了导致路径点对应图像产生小而可感知差异的参数。

实验结果

在实验中,将该方法与三种先前在潜在空间中找到线性轨迹的方法进行了比较,使用了在两个不同数据集上训练的GAN,一个是面部集合,一个是客厅场景集合。发现新方法在固定要固定的特征和改变要改变的特征方面均优于基线。

研究领域

计算机视觉

标签

生成对抗网络(GAN) 合成数据生成 欧洲计算机视觉会议(ECCV)

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计