神经网络细胞自动机的对抗性重编程技术解析

本文探讨了针对神经网络细胞自动机的两种对抗攻击方法:通过注入对抗性细胞来篡改系统行为,以及通过全局状态扰动改变细胞自动机的形态生成过程。研究揭示了复杂系统中信号传递的脆弱性,并为生物医学和机器人领域的系统控制提供了重要启示。

对抗性MNIST细胞自动机

在自分类MNIST数字任务中,细胞自动机被放置在构成MNIST数字形状的平面上。细胞必须相互通信以就它们形成的数字达成完全共识。

该实验的目标是创建对抗性细胞自动机,能够劫持细胞集体的分类共识,使其始终将数字分类为“8”。使用来自先前研究的细胞自动机模型并冻结其参数,然后训练一个架构相同但随机初始化的新细胞自动机。训练方案与自分类MNIST数字细胞自动机类似,但有三个重要区别:

  • 无论实际数字是什么,正确分类始终为“8”
  • 每个批次和每个像素,细胞自动机随机选择预训练模型或新的对抗性模型(对抗性细胞自动机使用10%的时间)
  • 仅训练对抗性细胞自动机参数,预训练模型参数保持冻结

这种对抗性攻击只修改了整个系统的一小部分,但目标是传播影响所有活细胞的信号。因此,这些对抗性细胞必须学会传递欺骗性信息,导致邻居错误分类,并通过“不知情”细胞进一步级联传播欺骗信息。

优化任务非常简单,仅需2000个训练步骤即可收敛(相比原始MNIST细胞自动机需要两个数量级更多的步骤)。通过可视化移除对抗性细胞后的情况,观察到对抗性细胞必须不断与非对抗性邻居通信以保持它们的恶意分类。虽然一些数字在移除对抗性细胞后无法恢复,但大多数会自我纠正为正确分类。

即使只有1%的细胞是对抗性的,攻击也能成功。创建了一个演示平台,读者可以绘制数字并精确放置对抗性细胞,以体验非对抗性细胞如何容易被误导为错误分类。

生长型细胞自动机的对抗性注入

自然延伸的问题是这些对抗性攻击是否也适用于生长型细胞自动机。生长型细胞自动机的目标是从单个细胞生长出复杂图像,并使其结果随时间持久且对扰动具有鲁棒性。

目标是让一些对抗性细胞改变所有细胞的全局配置。选择了两个新目标:无尾蜥蜴和红色蜥蜴。这些目标具有不同特性:

  • 红色蜥蜴:将蜥蜴从绿色变为红色显示细胞集体行为的全局变化
  • 无尾蜥蜴:断尾是更局部的变化,只需要欺骗一些细胞以错误方式行为

首先为无尾目标训练对抗性细胞,任何给定细胞有10%的概率是对抗性的。禁止目标模式外的细胞成为对抗性细胞(尾部不含对抗性细胞)。

结果显示结果差异很大:有时对抗性细胞成功移除尾部,有时尾部仅缩小但未完全移除,其他时候模式变得不稳定。训练这些对抗性细胞需要更多梯度步骤来实现收敛,并且收敛的模式质量比对抗性MNIST细胞自动机实验差。

红色蜥蜴模式表现更差。仅使用10%对抗性细胞完全失败:原始细胞不受对抗性细胞影响。将对抗性细胞比例增加到60%时,能够在形态发生的最初阶段将蜥蜴着色为红色。然而,当迭代时间超过训练时期时,模型非常不稳定。

与先前实验结果相比,生长型细胞自动机模型显示出比MNIST细胞自动机更大的对抗性扰动抵抗性。

扰动生长型细胞自动机的状态

观察到通过将对抗性细胞放置在细胞集体内部来欺骗生长型细胞自动机改变其形态是困难的。这些对抗性细胞必须设计复杂的局部行为,导致附近的非对抗性细胞以及最终整个图像的细胞改变其整体形态。

本节探索另一种方法:在不改变任何细胞模型参数的情况下扰动所有细胞的全局状态。

基于训练产生蜥蜴的生长型细胞自动机模型。每个细胞有一个包含16个元素的内部状态向量。其中一些是表型元素(RGBA状态),其余12个用于存储和通信信息。

可以扰动这些细胞的状态以特定方式劫持整个系统。专注于全局状态扰动,定义为在每个时间步骤应用于每个活细胞的扰动(类似于“系统性”生物医学干预)。

新目标是发现某种类型的全局状态扰动,导致稳定的新模式。实验使用简单的全局状态扰动类型:在每个步骤对每个活细胞应用对称的16×16矩阵乘法。

展示了6个目标模式:来自先前实验的无尾和红色蜥蜴,加上蓝色蜥蜴和各种断肢、断头蜥蜴。

模型成功发现了能够将目标模式改变为所需变体的全局状态扰动。展示了在步骤500停止扰动状态(训练外情况)并通过步骤1000重新应用突变时发生的情况。这表明扰动能够从种子开始和从完全生长的模式开始都能实现所需结果。

并非所有扰动都同样有效。特别是,无头扰动最不成功,导致整个蜥蜴模式其他细节的丢失。假设由于扰动的简单性,训练制度能够找到的最佳扰动是抑制包含头部形态和白色着色的“结构”。

扰动的方向和组合性

使用对称矩阵表示全局状态扰动的选择是由具有组合性的愿望证明的。每个复对称矩阵可以对角化,这提供了更清晰的直觉关于抑制或放大状态组合的容易程度。

可以分解扰动方向为“特征值空间”中的扰动方向。使用系数k缩放D,可以探索其他值并发现有意义的扰动。

取无尾扰动并观察随着k变化发生的情况:当k=1变为k=0时,可以观察到尾部变得更加完整。令人惊讶的是,如果使k为负值,蜥蜴会生长出更长的尾巴。不幸的是,走得越远,系统变得越不稳定,最终蜥蜴模式以无界方式生长。

可以同时执行多个单独训练的扰动吗?如果两个扰动具有相同(或足够相似)的特征向量,那么它们的组合会产生有意义的结果。然而,实际上特征向量也不同,因此组合的结果可能会更差。

在实际操作中,对两种类型的扰动(无尾和无腿蜥蜴)的方向系数进行插值,同时保持它们的和为1。虽然很大程度上实现了预期效果,但观察到一些意外效果,如整个模式开始在网格中垂直移动。

如果移除k和等于1的限制,而是完全添加两个扰动,会发生什么?预计这些扰动的方差会增加,意味着越来越远离训练期间发现的稳定扰动。预计会有更多意外效果可能破坏细胞自动机。

令人惊讶的是,所得模式几乎如预期。然而,它也遭受在插值k时观察到的模式垂直移动的问题。

这个框架可以推广到任意数量的扰动。创建了一个小型演示平台,允许读者输入他们想要的组合。经验上,惊讶于这些组合中有多少会产生预期的扰动,并且定性地看,将k限制为1通常会产生更稳定的模式。还观察到探索负k值通常更不稳定。

相关工作

这项工作受到生成对抗网络(GANs)的启发。虽然GANs通常共同训练模型对,但在这项工作中冻结了原始细胞自动机并仅训练对抗性模型。这种设置最大程度上受到开创性工作《神经网络的对抗性重编程》的启发。

本文中执行的状态扰动可以看作目标潜在状态操作。Word2vec显示了潜在向量表示如何具有组合特性,Fader网络显示了图像处理的类似行为。这两项工作及其相关工作都对我们有所启发。

影响力最大化

对抗性细胞自动机与影响力最大化领域有相似之处。影响力最大化涉及确定要影响的最佳节点以最大化对整个图的影响,通常是一个社交图,具有节点可以依次影响其邻居的特性。

例如,在这项工作中,我们假设对抗性细胞可以放置在结构中的任何位置以实现所需行为。影响力最大化问题的一个常见研究焦点是决定图中的哪些节点将导致对图的最大影响,称为目标集选择。这个问题并不总是易处理的,通常是NP难的,解决方案经常涉及模拟。对抗性神经细胞自动机的未来工作可能涉及应用影响力最大化技术来找到对抗性细胞的最佳放置位置。

讨论

本文展示了两种不同类型的对神经细胞自动机的对抗性攻击。

在预训练的自分类MNIST细胞自动机中注入对抗性细胞自动机显示了严重依赖彼此信息传递的现有细胞系统如何容易被欺骗性信号所动摇。生物系统经常面临这个问题,它们面临行为、生理和形态调节机制被生物圈中与之竞争的寄生虫和其他代理劫持。

对抗性注入攻击对生长型细胞自动机的效果要差得多,并导致整体不稳定的细胞自动机。这种动态对控制机制的可扩展性(群体机器人和嵌套架构)也很重要:“多细胞性”(将子代理连接在一起形成更大系统)的一个关键步骤是信息融合,这使得难以识别信号和记忆印迹的来源。最优架构需要平衡验证控制消息的需求与灵活合并子单元的可能性,这会消除关于信息信号特定来源的元数据。

对生长型细胞自动机的全局状态扰动实验显示了仍然可能将这些细胞自动机劫持到稳定的训练外配置,以及这些类型的攻击在某种程度上可组合,类似于自然语言处理和计算机视觉领域中嵌入空间可操作的方式。然而,这个实验未能发现在扰动解除后持续存在的稳定训练外配置。假设这部分是由于预训练细胞自动机的再生能力,其他模型可能从任意扰动中恢复的能力较差。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计