实时终端录屏
完整记录了2.5小时的终端操作过程,包含:
- 首次接触防御系统源代码
- 逐步构建攻击流程
- 最终完全破解防御机制
关键技术节点
1
2
3
4
5
|
# 陷阱门模型训练(CIFAR数据集)
python3 inject_trapdoor.py
# 攻击执行与检测评估
python3 eval_detection.py
|
攻击演进时间轴
时间戳 |
技术里程碑 |
00:00 |
防御系统初始化及代码环境搭建 |
26:28 |
基础梯度下降攻击实现(PGD方法) |
43:38 |
验证攻击结果与论文数据匹配性 |
59:02 |
损失函数参数优化及结构调整 |
72:17 |
首次突破防御(AUC=0.40) |
116:15 |
强化攻击使AUC降至0.25 |
141:55 |
最终攻击版本实现AUC=0.017 |
核心发现
- 标准攻击技术足以使防御系统准确率降至随机猜测水平
- 防御系统存在可预测的失效模式
- 攻击优化过程呈现明显的机械性特征
学术引用
1
2
3
4
5
6
|
@inproceedings{shan2020gotta,
title={Gotta catch’em all: Using honeypots to catch adversarial attacks on neural networks},
author={Shan, Shawn and Wenger, Emily and Wang, Bolun and Li, Bo and Zheng, Haitao and Zhao, Ben Y},
journal={Proc. of CCS},
year={2020}
}
|
防御系统破解往往不需要深奥的理论突破,而是对现有攻击技术的系统性优化和应用。本次演示揭示了对抗样本防御评估中存在的普遍性问题。