对抗样本防御正在进步吗?
在过去两个月里,我们团队对13种对抗样本防御方法进行了突破性测试,并据此发表了一篇新论文。本文旨在阐述开展这项研究背后的深层原因,而不仅仅是出于“纠正网络错误观点”的动机(尽管这确实是重要因素之一)。
历史背景
故事至少要从两年前说起。当时我们团队对ICLR 2018会议上提出的对抗样本防御方案进行了系统性研究。令人遗憾的是,我们发现绝大多数防御方案并未真正提升鲁棒性——它们只是通过增加函数优化难度使得标准攻击方法失效,而经过轻微改进的攻击策略就能轻易突破这些防御。我们随后发表了相关研究成果。
去年一月,我们联合多位合作者基于先前线上发布的评估框架,共同撰写了一份关于对抗鲁棒性评估的白皮书。该文件从高层理念到超参数设置细节,全方位阐述了我们认为最有效的对抗样本防御评估方法。
核心问题
过去两年间,对抗样本防御技术是否取得了实质性进步? 坦白说,我们原本期待答案是"毫无疑问的进步"。
为此,我们团队选取了最近两年间看起来最具创新性的13种防御方案进行深入研究。我们试图探究:防御评估是否存在新的失效模式?学术界是否已经掌握了 rigorous 的评估方法?
遗憾的是,答案是否定的。所有被选防御方案都能被攻破,更糟糕的是,这些防御的失败方式与以往如出一辙。
积极进展
首先值得肯定的是,当前防御方案至少尝试进行 proper 评估。过去的研究往往只展示现有攻击方法的失败,而不会真正尝试突破自身提出的防御机制。在本次研究的论文中,仅有3篇没有进行这种自适应攻击测试。相比过去,这是一个显著的进步,说明研究人员正在努力改进评估方法。
存在问题
虽然所有论文都尝试了自适应攻击,但最终未能发现强效攻击方法,导致作者误认为防御方案确实具有鲁棒性,而实际上只是攻击力度不足。更令人担忧的是,这些防御方案的失败模式与早期防御完全一致——都是通过(有意或无意地)增加梯度下降优化难度来实现防御,这与ICLR'18防御方案的缺陷完全相同。
最令人忧心的是,这些防御方案在论文中明确声称避免了这种缺陷。尽管作者用大量篇幅论证其成果不是通过破坏优化器实现的,但事实证明所有案例都存在这个问题。
严峻挑战
现状反思
三大根源
-
评估难度:进行 proper 评估确实困难。特别是对机器学习领域的研究者而言, adopting 安全领域的思维模式并非易事。
-
评审专家短缺:最近举办的ICLR、ICML和NeurIPS会议中,每次都有50-100篇防御方案投稿。至少有一两篇防御方案由非对抗样本评估专家评审的概率很高。由于评估本身难度大,验证评估结果更加困难,这意味着纯粹由于运气因素,部分有缺陷的防御方案也会被接收。
-
缺乏激励:投入六个月构建新防御方案的研究者没有动力认真尝试突破自己的防御。如果成功突破,结果将无法发表——负面结果很难被接收。当认真评估反而可能导致更差的结果时,很难说服研究者进行 thorough 评估。
论文范围界定问题
当前防御方案被会议接收的最大问题在于范围界定。目前似乎只有声称在所有威胁模型下有效( preferably 具有高精度)的防御方案才能被接收。值得注意的是,这里"威胁模型"不是指攻击方法——防御者不能选择使用的攻击方式,但设定 realistic(可能相当受限)的威胁模型是计算机安全的标准流程。
许多优秀论文提出了在更受限威胁模型下的防御方案,但很难被会议接收。如果要取得进展,我们需要开始接收(并鼓励)这类论文。等待能解决所有问题的"终极方案"是不现实的。
当前评审态度似乎是:如果结果不够惊人,且论文未声称在所有威胁模型下有效,就应该被拒绝。但问题在于,任何声称在所有威胁模型下具有强效结果的论文基本都是错误且有缺陷的。
我们更希望看到研究者开展 incremental 但扎实的工作,而不是提交明显错误的"突破性"成果。
结论
撰写本文主要是为了迫使自己深入思考当前对抗机器学习中防御研究的现状。如果你注意到我始终没有直接回答"防御是否在进步"的问题,那是因为我认为自己还没有确切的答案。
有充分证据表明防御评估正在改进:至少人们尝试进行攻击测试。但事实是,在几乎所有案例中,这些防御仍然没有被正确评估。
这显然不是我们期望的状态。理想情况下,防御技术应该逐年明显改进,我们通过持续努力就能获得完全有效的方案。但我们尚未达到这个目标,我也没有解决方案,但希望很快我们能够找到出路。