对抗性样本研究需拓展鲁棒性定义

本文探讨机器学习模型对抗性样本的本质,指出当前研究过于关注梯度扰动而忽略分布鲁棒性。通过高频滤波实验展示模型依赖人类不可见特征的现象,并分析对抗训练在不同频率扰动下的表现差异,提出需要建立更全面的鲁棒性评估体系。

对抗性样本研究者需拓展“鲁棒性”的定义范围

Ilyas等人的假设实际上是分布鲁棒性文献中广泛接受的一个更普遍原则的特例:模型缺乏鲁棒性主要是因为模型抓住了数据中的表面统计特征。在图像领域,这些统计特征可能未被人类使用且难以直观理解,但在独立同分布设置中可能有助于泛化。

避开梯度扰动的研究表明,模型能够通过学习自然存在且不易察觉的高频信息来泛化到测试样本。具体而言,在数据应用极端高通滤波器的情况下进行模型训练和测试,产生的高频特征对人类呈现完全灰度,但模型仅凭这些通常“不可见”的自然特征就能在ImageNet-1K上达到50%的top-1准确率。这些难以察觉的特征可以通过对滤波图像进行归一化来显现。

考虑到自然数据中存在大量有用相关性,我们应该预期模型会学习利用这些特征。然而,如果这些表面统计特征在部署后损坏,依赖它们的模型可能泛化能力很差。

通过扰动测试集中每张图像并测量测试错误率发现,自然训练的模型对低频扰动具有鲁棒性,但有趣的是在中高频缺乏鲁棒性。相比之下,对抗训练提高了对中高频扰动的鲁棒性,但牺牲了低频扰动性能。例如对抗训练将低频雾化损坏的性能从85.7%降低到55.3%。通过超越微小ℓp范数扰动的更广泛视角,我们发现对抗训练的模型实际上并不“鲁棒”,而是偏向于不同类型的表面统计特征。

研究社区应该如何创建在现实世界中稳健泛化的模型?必须采取更广泛的鲁棒性视角,接受ℓp对抗鲁棒性高度受限且与安全性和现实世界鲁棒性脱节的事实。对抗性样本不应被视为深度神经网络分类器的特殊怪癖,而是缺乏噪声鲁棒性模型的预期行为。

当前基准测试未能暴露这些故障模式,因此需要设计更困难、更多样化的测试集,不应继续单一地专注于研究特定的梯度扰动。在鲁棒性研究中,应该关注模型脆弱的各种方式,并相应设计更全面的基准测试。只要模型缺乏对分布偏移的鲁棒性,就总能通过对抗方式发现错误。

回应总结:模型从数据高频分量中学习的能力与我们的发现高度一致。虽然对噪声的敏感性可能确实源于非鲁棒的有用特征,但这种脆弱性至今主要被视为模型“缺陷”的后果。我们同意模型需要对更广泛的扰动集具有鲁棒性——扩展相关扰动集将有助于识别更多非鲁棒特征。

回应:模型能纯粹基于训练集的高频成分正确分类的事实很有启发性!这很好地补充了我们的一个重要发现:即使这些特征对人类来说难以理解,模型也会依赖有用的特征。虽然对噪声的非鲁棒性可能是模型使用非鲁棒有用特征的指标,但这并非主流观点。更常见的是,ML模型对噪声的脆弱性被视为模型的内在缺陷。我们完全同意ℓp有界扰动只是希望模型具备鲁棒性的扰动中的很小子集。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计