深度强化学习后门威胁
深度强化学习(DRL)在自动驾驶、医疗诊断等关键领域应用广泛,但其训练过程高度依赖大型机构资源。攻击者可能通过植入策略缺陷(如图1b所示的3×3灰色像素触发器),诱导模型在特定环境条件下产生危险行为。
图1:Atari Breakout游戏中正常策略(a)与含像素触发器的后门策略(b)对比
现有防御方案的局限
当前最先进的防御方案通过创建"安全子空间"过滤异常状态(图2b),但存在两大缺陷:
- 计算成本高昂
- 无法检测分布内后门(如缺失砖块形式的触发器)
图2:中间缺失砖块构成的分布内后门,现有方案无法识别
新型检测方法
我们在MiniGrid熔岩穿越环境中设计"+“形熔岩触发器(图3),基于PPO算法的256神经元Actor-Critic网络,发现:
- 触发与非触发场景的神经元激活存在显著差异(图4)
- 关键神经元激活分布呈现明显区分度(图5a-5b)
图4:触发与非触发场景下Actor网络神经元平均激活差异
实时检测实现
通过量化神经元激活百分位水平构建轻量级分类器:
- 检测F1分数超过93%
- 可应用于自动驾驶等实时系统,在检测到威胁时立即切换人工控制
研究意义
该成果首次实现:
- 对隐蔽分布内后门的实时检测
- 基于神经激活序列的时序后门分析
- 为DRL在关键领域的实际部署提供安全保障