缓解深度强化学习后门攻击
本文介绍了深度强化学习代理中嵌入后门的问题,并讨论了我们提出的防御方案。更多技术细节请参阅我们的论文和项目代码库。
深度强化学习(DRL)在流程自动化领域具有革命性潜力。从自动驾驶汽车的决策自动化,到辅助医疗诊断,甚至提升核聚变等离子体控制效率。虽然DRL的实际应用数不胜数,但DRL模型的开发过程本质上是资源密集型的,往往超出小型实体的资源分配限制,导致对大型组织的依赖。这种依赖性带来了重大风险,包括可能导致代理在特定操作阶段出现不安全行为的策略缺陷。
不安全代理行为可能源于针对DRL代理策略的后门攻击。对AI代理的后门攻击涉及故意设计的策略缺陷,旨在在特定环境线索触发时代理行为出现意外偏差。标准后门的示例如图1b左上角所示,它以3×3灰色像素的形式出现,每隔一定间隔意外出现,导致DRL代理行为出现偏差。
图1a和1b:Atari Breakout游戏片段GIF,分别展示无后门触发的清洁DRL策略(红色轮廓内)和带有灰色3×3像素触发的后门DRL策略
当前最先进的后门攻击防御方案针对标准后门提供防护。然而,该方案需要大量计算时间才能成功清除DRL代理中根深蒂固的中毒策略。图1b下方展示了防御如何通过创建"安全子空间"来过滤后门策略,移除环境中的异常状态并允许良性代理操作。
图2a和2b:被标准后门触发(红色轮廓内)毒化的DRL代理玩Atari Breakout游戏的片段。2a为无防御情况,2b为采用当前最先进防御和净化算法的情况
为评估当前最先进解决方案对更隐蔽后门攻击的有效性,我们研究了分布内后门,这种攻击通过代理环境中不异常于整体数据的变化发生。我们设计了一个表现为环境中缺失瓦片的触发器,并对此后门应用最先进算法。结果发现,由于其隐蔽外观,算法无法过滤此后门(如图2所示)。
图2:被分布内后门毒化的DRL代理玩Breakout Atari游戏,后门表现为瓦片空间中间的缺失瓦片(红色轮廓内)
该领域可行解决方案的缺失构成了DRL算法在实际应用中部署的主要障碍。根据应用场景不同,对分布内后门攻击的敏感性可能导致对手策划灾难性后果,包括自动驾驶系统中的车辆事故、医疗环境中的误诊,以及核聚变操作中潜在的致命风险。这对DRL在实际操作中的部署构成了重大挑战,可能阻碍其在各个具有巨大潜力的实际领域的集成。
为检测隐藏的后门攻击,我们采用改编版的MiniGrid熔岩穿越环境,该环境因每局游戏中熔岩"河流"的随机配置而具有更高的可变性。我们的分布内后门类似于由熔岩河流形成的"+“符号,引导代理在看到时进入熔岩。
图3a和3b:修改后的熔岩穿越环境,包含原始6格熔岩河流(带有间隙)和另一条3格河流。"+“符号被归类为分布内后门,因为其在每局游戏的熔岩河流随机排列中自然存在
利用异常检测的现有研究,我们假设DRL代理的神经模式可用于区分良性和后门改变的决策过程。为探索这一点,我们使用具有256神经元actor-critic框架的神经网络训练近端策略优化(PPO)代理。简化设计有助于观察神经激活,帮助检测良性和基于后门的游戏片段之间的差异。在受控环境中,代理导航至绿色方块以展示良性行为(如图3a所示),而后门触发的存在导致其偏离进入熔岩(如图3b所示)。
通过我们的受损模型,我们检查了1000个良性和1000个后门游戏片段中的神经活动。分析显示两种场景下actor网络的平均神经活动存在显著差异,如下图所示。
图4:比较触发片段和目标片段期间actor网络256个神经元激活平均值时的平均神经元激活差异
我们进一步深入研究受影响最严重神经元的神经元激活水平分布,发现两种场景下的分布存在显著差异(如下图所示)。
图5a和5b:特定神经元在1)目标在视野内和2)触在视野内时的激活分布差异
图6a和6b:显示触发和非触发片段期间神经元激活水平转换的GIF
发现存在后门时表现出不同的神经活动后,我们基于神经元激活的上部和下部百分位数水平参数化轻量级分类器。下图展示了我们检测器的性能,它们通过神经激活成功识别隐藏后门,实现超过93%的F1分数。这一发现使我们向DRL的实际部署迈进一步,因为它确认了神经激活在DRL操作中实时检测后门威胁的巨大潜力。例如,在涉及自动驾驶汽车的应用场景中,当触发器出现在其视野中时,可以立即将控制权交给人类驾驶员,而不是允许算法采取恶意行动。
通过这项工作,我们通过引入能够识别环境中即使最隐蔽后门的强大实时方法,超越了DRL后门检测研究的现有基准。我们研究的见解为在各种算法和背景下应用我们的发现开辟了新途径。此外,这一突破使得能够通过受损代理中的神经激活序列评估时间后门,这是当前缺乏有效解决方案的领域。
致谢
本研究由国防科学技术实验室(Dstl)资助,该实验室是英国国防部的执行机构,为国家和盟友提供世界级专业知识并交付尖端科学技术。该研究支持Dstl网络防御增强计划内的自主弹性网络防御(ARCD)项目。