非线性控制GAN图像生成的新方法
生成对抗网络(GANs)是一种能够生成高度逼真合成图像的技术。从一组真实图像中,GAN学习从潜在分布到训练数据集所表示的图像分布的映射。通过控制GAN修改图像是一个活跃的研究领域,其应用包括数据集创建和增强、图像编辑以及娱乐应用。
在今年的欧洲计算机视觉会议(ECCV)上提出的论文中,描述了一种新技术,能够对GAN输出提供精确控制。与先前技术不同,该方法可以在变化其他属性的同时保持选定图像属性稳定(例如房间中沙发的位置和外观)。
非线性轨迹的优势
先前控制GAN的方法依赖于潜在空间中的线性轨迹,沿着这些轨迹某些特征会发生变化(例如生成面部的年龄或微笑/皱眉程度)。研究人员要么寻找潜在空间中的现有轴(这种情况下与图像特征的相关性很少精确),要么有意构建空间以使其适合线性轨迹(这种情况下必须提前知道要控制哪些图像特征)。
新方法通过GAN的潜在空间绘制非线性轨迹,而不是将空间轴与预定特征相关联。因此,它可以与现有GAN配合使用,无论其潜在空间的结构如何。这意味着原则上可以控制多个任意属性。
同样,该方法可以控制人类难以准确注释的特征——因此难以通过修改潜在空间结构来捕获。例如,对图像进行傅里叶变换后,可以固定高频特征并变化低频特征,产生明显不同但变化难以解释的图像:
雷利商数方法
该方法基于这样的直觉:对于潜在空间内的任何点,都存在所需属性不变化的局部轨迹。将此类轨迹的计算视为优化问题——特别是雷利商数问题。
假设对于潜在空间中的任何点,都有一个函数将相应图像映射到某种特征集。对于像头发长度或眼睛颜色这样的特征,该函数将是在相关分类任务上训练的神经网络;对于高频和低频图像特征,该函数是像傅里叶变换这样的闭式变换。
目标是在潜在空间中找到一条局部轨迹,最小化某些函数输出的变化,同时最大化其他函数输出的变化。优化这些变化的比率是雷利商数最大化的一个实例。
使用局部线性展开来近似空间中的相对位移——基于函数在某点导数的线性近似。组装导数矩阵(雅可比矩阵,测量不同维度上的变化或变化率)需要在潜在空间中采样局部点。完成此操作后,雷利商数的最大化具有闭式解,从而给出通过空间的最佳轨迹。
实验验证
沿着该轨迹移动一小段距离,然后重新计算新的雷利商数。路径点之间的距离是该方法的一个超参数,根据函数而变化。在实验中,选择的参数导致路径点对应图像之间出现小而可感知的差异。
在这些实验中,将该方法与三种先前在潜在空间中找到线性轨迹的方法进行了比较,使用了在两个不同数据集上训练的GAN:一组面部图像和一组客厅场景。发现该方法在固定要固定的特征和变化要变化的特征方面都优于基线方法。
该方法因为通过任意潜在空间绘制局部轨迹,可以处理更多样化的图像类型,而大多数可控GAN的工作都集中在合成面部上。