对抗性机器学习必读论文指南

本文系统梳理了对抗性机器学习领域的核心研究文献，涵盖基础理论、攻击方法、防御策略及实际应用场景，为研究者提供完整的学习路径和论文阅读指南。

对抗性机器学习阅读清单

2018-07-15 [最后更新于2019-11-26]

时常收到咨询如何开始研究对抗性机器学习的邮件。以下推荐论文清单将帮助读者熟悉机器学习系统中的规避攻击特定子领域（即对抗性样本）。

也可查看（未过滤的）1000+篇对抗性样本论文全集。

本清单分为三个版本：

基础入门清单：包含5篇概括性论文，虽不足以支撑新研究，但能帮助理解对抗性样本研究的基本概念
快速导览清单：约10篇关键论文，为机器学习对抗性样本领域奠定坚实基础
完整背景清单：包含所有神经网络评估研究者必读文献，按主题分类并标注阅读顺序

基础入门

预备论文

《测试时机器学习规避攻击》
《神经网络的神秘特性》
《对抗性样本的解释与利用》

攻击与防御

《神经网络鲁棒性评估方法》
《构建抗对抗攻击的深度学习模型》

快速导览

预备论文

（与基础清单相同）

攻击（1）

《机器学习中的迁移性：从现象到基于对抗样本的黑盒攻击》
《神经网络鲁棒性评估方法》

防御

《构建抗对抗攻击的深度学习模型》
《基于差分隐私的对抗样本认证鲁棒性》

攻击（2）

《ZOO：无需训练替代模型的零阶优化黑盒攻击》
《鲁棒对抗样本合成》
《基于决策的黑盒攻击：针对黑盒机器学习模型的可靠攻击》
《梯度混淆带来虚假安全感：规避对抗性防御措施》

完整背景

预备论文

（与基础清单相同）

攻击篇 [需先读预备论文]

《对抗环境下深度学习的局限性》
《DeepFool：欺骗深度神经网络的简单精准方法》
《神经网络鲁棒性评估方法》

迁移性篇 [需先读预备论文]

《机器学习中的迁移性：从现象到基于对抗样本的黑盒攻击》
《可迁移对抗样本与黑盒攻击深入研究》
《通用对抗扰动》

对抗样本检测 [需先读攻击篇、迁移性篇]

《对抗扰动检测》
《通过特征伪迹检测对抗样本》
《对抗样本不易检测：绕过十种检测方法》

受限威胁模型攻击 [需先读攻击篇]

《ZOO：无需训练替代模型的零阶优化黑盒攻击》
《基于决策的黑盒攻击：针对黑盒机器学习模型的可靠攻击》
《先验信念：基于多臂赌博机的黑盒对抗攻击》

物理世界攻击 [需先读攻击篇、迁移性篇]

《物理世界中的对抗样本》
《鲁棒对抗样本合成》
《深度学习模型的物理世界鲁棒攻击》

验证篇 [需先读导论]

《Reluplex：验证深度神经网络的高效SMT求解器》
《区间边界传播在训练可验证鲁棒模型中的有效性》

防御（2） [需先读检测篇]

《构建抗对抗攻击的深度学习模型》
《基于差分隐私的对抗样本认证鲁棒性》

攻击（2） [需先读防御（2）]

《梯度混淆带来虚假安全感：规避对抗性防御措施》
《对抗风险与弱攻击评估的危害》

防御（3） [需先读攻击（2）]

《迈向首个MNIST上的抗对抗神经网络模型》
《对抗鲁棒性评估研究》

其他领域 [需先读攻击篇]

《神经网络策略的对抗攻击》
《音频对抗样本：针对语音转文本的定向攻击》
《Seq2Sick：序列到序列模型对抗鲁棒性评估》
《生成模型的对抗样本》

如需获取后续更新通知，可提交邮箱地址订阅。也可通过RSS Feed获取更新。

comments powered by Disqus