非鲁棒性特征的线性模型分析
在对抗攻击场景下,特征$f(x)$的鲁棒有效性可分解为: $$ \mathbf{E}\left[\inf_{|\delta|\leq\epsilon}yf(x+\delta)\right] = \mathop{\mathbf{E}[yf(x)]} - \epsilon\frac{|a|{*}}{|a|{\Sigma}} $$ 其中第一项表示特征与标签的相关性,第二项量化特征的非鲁棒性。通过CIFAR-10卡车/青蛙分类任务的可视化显示,高频特征往往兼具低效用和低鲁棒性。
两类特征构造方法
集成构造
将低于鲁棒性阈值的多个非鲁棒特征按$\sum_i \text{sign}(\mathbf{E}[y_{i}a_{i}^{T}x])a_{i}^{T}$集成并归一化,形成单一有用非鲁棒特征。该构造最接近理论框架中的非鲁棒特征原型。
混合构造
通过插值鲁棒特征$a_\text{robust}$与非鲁棒特征$a_\text{non-robust}$获得新特征:$(1-\alpha) \cdot a_{\text{non-robust}} + \alpha \cdot a_{\text{robust}}$。实验表明此类构造可能干扰鲁棒性评估标准。
理论框架局限
现有定义难以区分集成构造与混合构造产生的非鲁棒特征。确定性扰动实验(如Madry等人研究)显示二者存在本质差异,这为机器学习社区提出了新的理论挑战。