NCCR:评估神经网络与对抗样本鲁棒性的方法
近年来神经网络备受关注,随之而来的安全问题也日益凸显。研究表明神经网络易受人为微小扰动生成的对抗样本影响,这些扰动小到人类无法察觉。尽管已有多种攻防方法被提出,但关于评估神经网络及其输入鲁棒性的研究仍很缺乏。
本文提出名为**神经元覆盖变化率(NCCR)**的新指标,用于衡量深度学习模型抵抗攻击的能力以及对抗样本的稳定性。NCCR通过监测输入扰动时特定选定神经元的输出变化来实现评估——变化程度越小的网络被认为越鲁棒。
在图像识别和说话人识别模型上的实验表明:
- 该指标能有效评估神经网络或其输入的鲁棒性
- 可用于检测输入是否为对抗样本(对抗样本始终表现出更低鲁棒性)
这项研究为深度学习安全领域提供了量化评估工具,对构建更健壮的AI系统具有重要意义。