鲁棒特征泄漏

作者
Gabriel Goh

所属机构
某研究中心

发布日期
2019年8月6日

核心发现

针对Ilyas等人提出的“对抗样本不是缺陷而是特征”的论点，本研究提出另一种解释机制：鲁棒特征泄漏。通过实验证明：

构建线性鲁棒特征 $f_i(x) = w_i^T x$，满足以下任一规范：
- 规范1：至少对一个类别具有$\gamma=0$的$\gamma$-鲁棒性（$L_2$范数球半径0.25）
- 规范2：特征来源于鲁棒模型，且测试集中至少80%点在$L_2$范数球半径0.25邻域内预测保持不变

使用CIFAR-10训练的鲁棒线性模型的10个线性特征，其权重可视化如下：

1
2


γ_0=0.214, γ_1=0.194, γ_2=0.126, γ_3=0.126, γ_4=0.143
γ_5=0.154, γ_6=0.172, γ_7=0.155, γ_8=0.231, γ_9=0.212

在线性特征上训练分类器（遵循公式3），分别在$\hat{\mathcal{D}}{\text{det}}$和$\hat{\mathcal{D}}{\text{rand}}$数据集上进行测试。

随机扰动数据集存在特征泄漏：部分准确率确实来源于鲁棒特征（当前为线性模型下的弱下界，非线性模型可能更高）
确定性数据集结果可靠：未发现泄漏证据，支持Ilyas等人关于非鲁棒特征主导性的论点
数据集设计差异：
- $\hat{\mathcal{D}}_{\text{rand}}$通过随机标签PGD攻击可能编码鲁棒特征
- $\hat{\mathcal{D}}_{\text{det}}$通过确定性标签置换控制鲁棒特征相关性

原论文作者认可该担忧，并指出：

感谢Shan Carter（项目启动）、Preetum（技术讨论）、Chris Olah（技术讨论）、Ria（技术讨论）、Aditiya（反馈）的贡献。

本文基于DOI:10.23915/distill.00019.2的研究成果，遵循CC-BY 4.0许可协议