鲁棒特征泄漏
作者
Gabriel Goh
所属机构
某研究中心
发布日期
2019年8月6日
核心发现
针对Ilyas等人提出的“对抗样本不是缺陷而是特征”的论点,本研究提出另一种解释机制:鲁棒特征泄漏。通过实验证明:
- 在随机扰动数据集($\hat{\mathcal{D}}_{\text{rand}}$)中,至少23.5%的准确率(总准确率88%)可归因于鲁棒特征
- 在确定性扰动数据集($\hat{\mathcal{D}}_{\text{det}}$)中未发现特征泄漏证据(准确率仅6.81%,总准确率44%)
实验方法
特征构建
-
构建线性鲁棒特征 $f_i(x) = w_i^T x$,满足以下任一规范:
- 规范1:至少对一个类别具有$\gamma=0$的$\gamma$-鲁棒性($L_2$范数球半径0.25)
- 规范2:特征来源于鲁棒模型,且测试集中至少80%点在$L_2$范数球半径0.25邻域内预测保持不变
-
使用CIFAR-10训练的鲁棒线性模型的10个线性特征,其权重可视化如下:
1 2
γ_0=0.214, γ_1=0.194, γ_2=0.126, γ_3=0.126, γ_4=0.143 γ_5=0.154, γ_6=0.172, γ_7=0.155, γ_8=0.231, γ_9=0.212
分类器训练
在线性特征上训练分类器(遵循公式3),分别在$\hat{\mathcal{D}}{\text{det}}$和$\hat{\mathcal{D}}{\text{rand}}$数据集上进行测试。
关键结论
- 随机扰动数据集存在特征泄漏:部分准确率确实来源于鲁棒特征(当前为线性模型下的弱下界,非线性模型可能更高)
- 确定性数据集结果可靠:未发现泄漏证据,支持Ilyas等人关于非鲁棒特征主导性的论点
- 数据集设计差异:
- $\hat{\mathcal{D}}_{\text{rand}}$通过随机标签PGD攻击可能编码鲁棒特征
- $\hat{\mathcal{D}}_{\text{det}}$通过确定性标签置换控制鲁棒特征相关性
学术回应
原论文作者认可该担忧,并指出:
- $\hat{\mathcal{D}}_{\text{det}}$数据集的设计初衷正是控制鲁棒特征泄漏
- 随机扰动数据集中,目标攻击可能使鲁棒特征与标签产生微弱相关性
- 确定性数据集中鲁棒特征与原始标签相关,无法翻转至新标签
致谢
感谢Shan Carter(项目启动)、Preetum(技术讨论)、Chris Olah(技术讨论)、Ria(技术讨论)、Aditiya(反馈)的贡献。
本文基于DOI:10.23915/distill.00019.2的研究成果,遵循CC-BY 4.0许可协议