对抗样本防御评估建议

本文内容已过时。作者已与他人合作完成一篇关于对抗鲁棒性评估的20页完整论文，包含更全面的信息。建议阅读论文《论对抗鲁棒性评估》。

以下为原始内容：

在ICML 2018会议上，由于论文《混淆梯度带来虚假安全感：绕过对抗样本防御》获得最佳论文奖，作者进行了两场演讲。第二场演讲专注于对抗样本防御评估的建议。这些建议基于论文分析结果：ICLR 2018接收的防御论文中超过一半存在结论错误（即实际防御效果远低于声称效果）且评估方法薄弱。

本文旨在系统化演讲中的建议，并提供详细原理说明。内容不仅适用于防御评估者，也可帮助读者判断论文中的评估是否充分。

前提：主动攻击防御

防御评估的首要且最关键环节是尝试规避特定防御。在明确防御机制后，必须思考：何种攻击可能击败该防御？所有可能有效的攻击都需被证明无效。未进行此步骤的评估即使包含后续所有建议也存在根本缺陷。原因如下：

第一，从安全视角看，防御仅在未来攻击中保持有效才有价值。证明防御能抵御既往攻击是必要但不充分的。即使防御能抵抗非针对性的先进攻击，仍不足够。必须主动尝试击败所提出的特定防御。

以加密算法为例：若使用rot-13（字母偏移13位）这种明显不安全的算法，攻击者只需反向偏移13位即可解密。若改为偏移14位，虽能抵御旧攻击，但安全性未提升——攻击者只需调整为偏移14位即可破解。这种“防御”仅通过非本质修改阻止旧攻击，而非真正增强安全。

第二，即使上述理由不具说服力，非适应性攻击的防御问题已被大量解决。arXiv上200余篇防御论文中，超半数已实现针对现有攻击算法的有效防御。因此，若声称防御技术有突破，仅评估既往攻击不足够，必须证明其对未来攻击同样有效。

最后需注意：若新防御仅针对固定攻击评估，不可与旧防御在适应性攻击下的效果直接比较（例如新防御对固定攻击有效率90% vs 旧防御对适应性攻击有效率10%）。这种比较如同声称“MLP在MNIST上99%准确率优于ResNet在CIFAR上的95%准确率”，不公平且常见于文献中。

评估建议

如何执行适应性攻击？以下为具体攻击类型建议（多数源自既往研究）：

1. 勿仅使用快速梯度符号法（FGS）

FGS攻击最初为证明神经网络线性性而设计，从未被视为强攻击方法。即使作为防御基准，许多防御方案（如弱版本对抗训练）可通过梯度掩蔽（gradient masking）使梯度在局部指向无用方向，从而轻易抵御FGS。评估可包含FGS，但绝不能作为唯一攻击方法。

2. 执行1000+次迭代攻击

虽然10或100次梯度下降迭代可能实现有效攻击，但需更多谨慎。建议以1000次迭代为安全起点，部分场景需更多迭代。合理威胁模型中，攻击者能执行10次迭代即能执行1000次。因此必须评估多迭代的强攻击。

3. 从随机偏移启动搜索

迭代攻击时，从初始输入随机偏移处开始搜索可降低对抗样本所需失真度10%，并减少对抗训练过拟合。建议至少尝试10个随机起点。

4. 执行迁移性分析

对抗样本常在不同模型间迁移。防御评估需验证所提防御是否破坏迁移性。方法为：在源模型上生成强目标类对抗样本，测试其在目标（防御）模型上是否仍具对抗性。源模型应选择与防御模型相似的结构（如同基线模型）、相同训练数据，或强对抗训练模型。生成针对集成源模型的对抗样本再迁移至目标模型效果更佳。

5. 应用无梯度攻击

为确保模型未引发梯度掩蔽，需尝试无梯度攻击。推荐以下四种：

ZOO：数值估计梯度后执行下降，强大但损失表面噪声大时可能无效。
SPSA：专为防御评估设计，已破解多种防御。
NES：以有限查询生成高失真对抗样本。
决策对抗生成：仅关注最可能标签，对噪声损失表面更鲁棒但需更多查询。

6. 尝试暴力（随机搜索）攻击

通过纯随机搜索（如高斯或均匀随机噪声）生成对抗样本，可确认未遗漏明显漏洞。若随机采样发现其他方法未找到的对抗样本，表明其他攻击可改进。建议从大距离随机采样开始，逐步缩小失真度范围，以数十万随机样本验证百个实例。

分析建议

完成评估后，以下检查可帮助识别攻击缺陷：

1. 评估最坏攻击效果

需比较防御在最强攻击下的表现。若防御A在弱攻击（如FGS）下优于防御B，但在强攻击（如PGD）下更差，则防御B更强。

2. 验证迭代攻击优于单步攻击

迭代攻击严格优于单步攻击。若迭代攻击效果更差，常表明攻击实现错误。诊断方法包括：绘制多次尝试的平均攻击成功率随迭代次数变化曲线，或单输入模型损失随迭代次数曲线（损失应持续下降）。若异常，可尝试减小步长或检查梯度混淆。

3. 验证攻击成功率随失真度单调增加

允许更大失真的攻击严格更强。若攻击成功率随失真度增加而下降，可能攻击存在缺陷。

4. 验证迭代攻击收敛

通过绘制攻击成功率随迭代次数曲线，确认梯度下降迭代次数足够。曲线应趋于平稳；未收敛时需增加迭代。迭代次数与步长成反比、与允许失真度成正比。例如CIFAR-10数据集在8/255失真度下，步长1时1000次迭代内总能收敛。

5. 验证无界攻击始终成功

无失真限制时，任何攻击最终应达到100%成功率（即使通过将输入彻底变为其他类别实现）。若无界攻击未成功，表明攻击应用错误。

6. 无界攻击需测量失真度而非成功率

无界攻击的正确评估指标是对抗样本所需失真度（成功率应为100%）。有用图表为成功率vs失真度曲线，有用统计量为对抗样本的平均或中位数距离。若需衡量成功率，可人工设定失真上限并报告超限失败比例（需明确阈值）。

7. 验证白盒攻击优于黑盒攻击

白盒攻击严格包含黑盒攻击，效果应严格更优。黑盒攻击更成功常表明防御存在梯度掩蔽，白盒攻击可进一步改进。此时可检查黑盒成功而白盒失败的实例，分析其关联性及白盒攻击未成功原因。

注：本文仅提供技术评估方法，不涉及任何具体企业或产品推广。

对抗样本防御评估实用指南

本文深入探讨对抗样本防御评估的核心方法，强调主动攻击测试的重要性，提出迭代攻击、随机偏移启动、迁移性分析等关键技术要点，并给出验证攻击有效性的具体分析建议，为安全评估提供实用框架。