对抗样本非漏洞论:两类有用非鲁棒性特征解析

本文通过线性模型实验揭示对抗样本中存在的有用非鲁棒性特征,提出特征组合的两种构造方法,并探讨其与模型鲁棒性的关联机制。

非鲁棒性特征的线性模型分析

在对抗攻击场景下,特征$f(x)$的鲁棒有效性可分解为: $$ \mathbf{E}\left[\inf_{|\delta|\leq\epsilon}yf(x+\delta)\right] = \mathop{\mathbf{E}[yf(x)]} - \epsilon\frac{|a|{*}}{|a|{\Sigma}} $$ 其中第一项表示特征与标签的相关性,第二项量化特征的非鲁棒性。通过CIFAR-10卡车/青蛙分类任务的可视化显示,高频特征往往兼具低效用和低鲁棒性。

两类特征构造方法

集成构造
将低于鲁棒性阈值的多个非鲁棒特征按$\sum_i \text{sign}(\mathbf{E}[y_{i}a_{i}^{T}x])a_{i}^{T}$集成并归一化,形成单一有用非鲁棒特征。该构造最接近理论框架中的非鲁棒特征原型。

混合构造
通过插值鲁棒特征$a_\text{robust}$与非鲁棒特征$a_\text{non-robust}$获得新特征:$(1-\alpha) \cdot a_{\text{non-robust}} + \alpha \cdot a_{\text{robust}}$。实验表明此类构造可能干扰鲁棒性评估标准。

理论框架局限

现有定义难以区分集成构造与混合构造产生的非鲁棒特征。确定性扰动实验(如Madry等人研究)显示二者存在本质差异,这为机器学习社区提出了新的理论挑战。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计