通过残差扰动攻击提升对抗样本迁移性
深度神经网络容易受到对抗样本的攻击,这些样本通过难以察觉的扰动导致模型预测错误。基于迁移的攻击方法为替代模型生成对抗样本,并在黑盒场景下将这些样本迁移到目标模型。近期研究表明,位于平坦损失景观中的对抗样本表现出更好的迁移性,有助于缓解对替代模型的过拟合问题。然而,现有方法忽略了扰动方向的影响,导致迁移性有限。
本文提出了一种新颖的攻击方法——残差扰动攻击(ResPA),该方法依靠残差梯度作为扰动方向,引导对抗样本朝向损失函数的平坦区域。具体而言,ResPA对输入梯度进行指数移动平均以获得一阶矩作为参考梯度,该参考梯度包含了历史梯度的方向信息。与过度依赖当前梯度产生的局部平坦性作为扰动方向不同,ResPA进一步考虑当前梯度与参考梯度之间的残差,以捕捉全局扰动方向的变化。
实验结果表明,ResPA相比现有典型迁移攻击方法具有更好的迁移性,且通过与当前输入变换方法结合,可进一步提升迁移效果。代码已在此https URL公开。