可微分图像参数化技术解析

本文深入探讨可微分图像参数化技术在神经网络可视化与艺术创作中的应用,涵盖对齐特征插值、傅里叶空间风格迁移、CPPN生成、透明图像合成及3D纹理优化等前沿方法,通过梯度反传实现跨域图像生成。

可微分图像参数化

神经网络在图像分类任务中展现出惊人的图像生成能力。DeepDream、风格迁移和特征可视化等技术利用这种能力,成为探索神经网络内部工作机制的强大工具,并推动了神经艺术这一艺术运动的发展。

技术原理

所有技术都遵循相似的工作原理:计算机视觉神经网络拥有丰富的图像内部表征。我们可以利用这种表征定义期望图像具备的属性(如风格),然后通过优化输入图像来实现这些属性。这种优化之所以可行,是因为网络对输入是可微分的——我们可以通过梯度下降法逐步调整图像以适应目标属性。

传统方法将输入图像参数化为每个像素的RGB值,但这并非唯一方式。只要从参数到图像的映射是可微分的,就可以用梯度下降优化替代参数化方案。

只要图像参数化可微分,就能通过反向传播进行优化

参数化的重要性

优化问题的参数化方式会显著影响结果,尽管实际优化的目标函数保持不变。主要原因包括:

  1. 优化改进:通过输入变换使优化问题更简单(称为"预处理")是优化技术的核心。简单参数化改变能大幅简化神经艺术和图像优化
  2. 吸引盆:神经网络输入优化存在多个局部最小值。参数化改变会影响不同吸引盆的大小,从而影响最终结果
  3. 附加约束:某些参数化仅覆盖可能输入的子集,优化器会在参数化约束下找到最优解
  4. 隐式优化:参数化可能内部使用与输出不同的对象类型。例如可以将图像参数化为3D对象的渲染,通过渲染过程的反向传播来优化3D对象

对齐特征可视化插值

特征可视化不仅可可视化单个神经元,还能研究神经元间的相互作用。通过创建多个可视化结果,逐步将优化目标从一个神经元转移到另一个神经元,类似于GAN等生成模型中的潜在空间插值。

但由于特征可视化的随机性,直接插值会导致视觉标志物(如眼睛)在不同图像中出现位置偏差。通过共享参数化技术——将每帧参数化为独特参数化与共享参数化的组合,可以促使可视化结果自然对齐。

共享参数化使视觉标志物在帧间保持对齐

非VGG架构的风格迁移

神经风格迁移存在一个谜团:尽管取得了显著成功,但几乎所有风格迁移都使用VGG架构变体。这并非因为缺乏对其他架构的兴趣,而是因为在其他架构上尝试效果始终不佳。

我们发现现代视觉模型的梯度中存在棋盘伪影,这使得风格化图像的优化更加困难。通过使用去相关参数化(如缩放傅里叶变换替代像素参数化),可以显著改善风格迁移效果。

滑动比较像素空间优化与去相关空间优化的效果差异

组合模式生成网络

我们可以通过不同参数化向优化过程添加额外约束。具体而言,将图像参数化为神经网络——特别是组合模式生成网络。

CPPN是将(x,y)位置映射到图像颜色的神经网络。通过对位置网格应用CPPN,可以生成任意分辨率的图像。CPPN的参数(权重和偏置)决定了生成的图像内容。

CPPN作为可微分图像参数化,可通过反向传播优化参数

使用CPPN作为图像参数化可以为神经艺术增添有趣的艺术品质,类似于光绘效果。从理论层面看,它们可以约束图像的组合复杂性。

半透明模式生成

尽管神经网络训练时接收的是2D RGB图像,但我们可以通过让可微分参数化定义图像家族而非单个图像,在每个优化步骤中从该家族采样一个或几个图像,从而合成超出此领域的对象。

对于半透明图像,除了RGB通道外还有alpha通道编码像素不透明度。为了将此类图像输入神经网络,需要通过标准alpha混合公式将RGBA图像叠加在背景图像上。

通过在每个优化步骤使用不同的随机背景,并修改目标函数以鼓励一定程度的透明度,可以生成在特征可视化中区分重要区域与非重要区域的半透明图像。

通过3D渲染进行高效纹理优化

我们可以进一步创建与RGB输入相距更远的对象类型。本节探索针对特征可视化目标优化3D对象,使用3D渲染过程将其转换为可输入网络的2D RGB图像,并通过渲染过程的反向传播来优化3D对象的纹理。

与传统方法直接优化纹理不同,我们通过3D对象的渲染来优化纹理。这种方法消除了接缝问题,确保渲染对象上的模式方向一致,并且纹理分辨率可以任意高。

通过渲染过程的反向传播优化纹理,消除接缝并保持模式方向一致

通过3D渲染进行纹理风格迁移

建立有效的反向传播框架后,我们可以将现有的风格迁移技术适配到3D对象。与2D情况类似,目标是用用户提供图像的风格重新绘制原始对象的纹理。

通过在每个迭代步骤采样随机视角点,渲染两个图像(原始纹理的内容图像和优化纹理的学习图像),然后优化Gatys等人提出的风格迁移目标函数,最终获得结合所需风格元素同时保留原始纹理特征的纹理。

结论

对于创造性艺术家或研究人员来说,优化图像参数化的方式存在巨大空间。这不仅开启了截然不同的图像结果,还包括动画和3D对象!本文探索的可能性仅触及表面。

未来可以探索将3D对象纹理优化扩展到优化材料或反射率,甚至优化网格顶点位置。虽然本文专注于可微分图像参数化,但使用强化学习或进化策略优化不可微分或部分可微分的参数化也可能开启图像或场景生成的激动可能性。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计