GAN非线性隐空间控制技术实现精准图像生成

本文介绍了一种通过非线性轨迹控制GAN图像生成的新方法,能够固定特定图像属性同时调整其他特征。该技术基于瑞利商数优化,无需预定义隐空间结构,可处理多样化图像类型,在ECCV 2022会议上发表。

通过非线性隐空间遍历实现GAN图像生成器的精准控制

生成对抗网络(GAN)是一种能够生成高度逼真合成图像的技术。从一组真实图像中,GAN学习从隐分布到训练数据集所表示的图像分布的映射。通过控制GAN来修改图像是一个活跃的研究领域,其应用包括数据集创建和增强、图像编辑以及娱乐用途。

在今年的欧洲计算机视觉会议(ECCV)上发表的一篇论文中,描述了一种新技术,能够对GAN输出提供精确控制。与先前技术不同,该方法可以保持选定的图像属性稳定(例如房间中一个沙发的位置和外观),同时改变其他属性。

非线性轨迹控制

先前控制GAN的方法依赖于隐空间中的线性轨迹,沿着这些轨迹某些特征会发生变化(例如生成面孔的年龄,或微笑/皱眉的程度)。研究人员要么寻找隐空间中现有的轴线(这种情况下与图像特征的相关性很少精确),要么有意构建空间以便于线性轨迹(这种情况下必须提前知道要控制哪些图像特征)。

该方法不是将空间轴与预定特征相关联,而是通过GAN的隐空间绘制非线性轨迹。因此,它可以与现有的GAN一起工作,无论其隐空间的结构如何。这意味着原则上可以控制多个任意属性。

同样地,可以控制人类难以准确注释的特征(因此难以通过修改隐空间结构来捕获)。例如,对图像进行傅里叶变换,可以固定高频特性并改变低频特性,产生明显不同的图像,但其变化难以解释:

源图像(最左侧),随后是三个低频特性保持稳定而高频特性变化的图像,以及三个相反情况的图像。人类注释者很难标记图像之间的差异。

瑞利商数优化

该方法依赖于这样的直觉:对于隐空间内的任何点,都存在所需属性不变的局部轨迹。将此类轨迹的计算视为优化问题——特别是瑞利商数。

假设对于隐空间中的任何点,都有一个函数将相应图像映射到某种特征集。对于像头发长度或眼睛颜色这样的特征,该函数将是一个经过相关分类任务训练的神经网络;对于高频和低频图像特征,该函数是一个封闭形式的变换,如傅里叶变换。

目的是找到一个通过隐空间的局部轨迹,最小化某些函数输出的变化,同时最大化其他函数输出的变化。优化这些变化的比率是瑞利商数最大化的一个实例。

使用局部线性展开(基于导数的函数在给定点值的线性近似)来近似空间中的相对位移。组装导数矩阵(雅可比矩阵,测量不同维度的变化或变化率)需要在隐空间中采样局部点。一旦完成,瑞利商数的最大化就有一个封闭形式的解,从而给出通过空间的最佳轨迹。

沿着该轨迹遍历一小段距离,然后重新计算新的瑞利商数。路径点之间的距离是该方法的一个超参数,根据函数而变化。在实验中,选择的参数导致路径点对应图像之间出现小而可感知的差异。

实验验证

在实验中,将该方法与先前三种在隐空间中找到线性轨迹的方法进行了比较,使用了在两个不同数据集上训练的GAN,一个是人脸集,一个是客厅场景集。发现该方法在固定要固定的特征和改变要改变的特征方面都比基线方法表现更好。

该方法因为通过任意隐空间绘制局部轨迹,可以处理更多样化的图像类型。大多数关于可控GAN的工作都集中在合成人脸上,这在一定程度上简化了问题,因为相同的面部特征往往位于图像的大致相同区域。

该方法可以找到通过隐空间的非线性轨迹,保持某些属性稳定(在这种情况下是一个不存在的合成面孔的身份)并改变其他属性(头发长度或颜色)。

相关技术

  • 显式控制GAN生成的合成图像:新方法使用户能够指定生成对抗网络产生的图像中的属性,如主体年龄、光线方向和姿势。
  • 逐层增长生成对抗网络:一种动态增长网络的新方法有望改进具有固定架构或预定增长策略的GAN。
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计