缓解深度强化学习后门攻击
本文介绍了深度强化学习智能体中嵌入后门的问题,并讨论了我们提出的防御方案。更多技术细节请参阅我们的论文和项目代码库。
深度强化学习(DRL)在流程自动化领域具有革命性潜力,从自动驾驶汽车的决策制定到辅助医疗诊断,甚至提升核聚变等离子体控制效率。虽然DRL的实际应用数不胜数,但其模型开发过程本质上是资源密集型的,往往超出小型实体的资源分配限制,导致对大型组织的依赖。这种依赖性带来了重大风险,包括可能导致智能体在特定操作阶段出现不安全行为的策略缺陷。
不安全智能体行为可能源于针对DRL智能体策略的后门攻击。对AI智能体的后门攻击涉及故意设计的策略缺陷,旨在在特定环境线索触发时导致意外的智能体行为偏差。标准后门的示例如图1b左上角所示,以3×3灰色像素的形式出现,每隔一定间隔意外出现,导致DRL智能体行为偏差。
图1a和1b:Atari Breakout游戏片段GIF,分别展示无后门触发的清洁DRL策略(红色轮廓内)和带有灰色3×3像素触发器的后门DRL策略
当前最先进的后门攻击防御方案针对标准后门提出防护措施。然而,该方案需要大量计算时间才能成功清除DRL智能体中根深蒂固的中毒策略。图1b下方展示了防御如何通过创建"安全子空间"来过滤后门策略,移除环境中的异常状态并允许良性智能体操作。
图2a和2b:被标准后门触发器毒化的DRL智能体游玩Atari Breakout片段。2a为无防御情况,2b为采用当前最先进防御和净化算法的情形
为评估现有最先进解决方案对更隐蔽后门攻击的有效性,我们研究了分布内后门——通过智能体环境中不异常于整体数据的变化发起的攻击。我们设计了一个表现为环境中缺失图块的触发器,并对此应用最先进算法。结果显示,由于其隐蔽外观,该算法无法过滤此后门(如图2所示)。
图2:被分布内后门毒化的DRL智能体游玩Breakout游戏,后门表现为图块空间中央的缺失图块(红色轮廓内)
该领域可行解决方案的缺失构成了DRL算法在实际应用中部署的主要障碍。根据应用场景不同,对分布内后门攻击的敏感性可能导致对手策划灾难性后果,包括自动驾驶系统中的车辆事故、医疗环境中的误诊,以及核聚变操作中潜在的致命风险。这对DRL在实际操作中构成了重大挑战,可能阻碍其在各个具有巨大前景的实际领域的集成。
为检测隐藏的后门攻击,我们采用改编版的MiniGrid熔岩穿越环境,该环境因每局游戏中熔岩"河流"的随机配置而具有更高的可变性。我们的分布内后门类似于由熔岩河流形成的"+“符号,指示智能体在发现时进入熔岩。
图3a和3b:修改版熔岩穿越环境,包含原始6格熔岩河流(带有间隙)和另一条3格河流。"+“符号被特征化为分布内后门,因为其在每局游戏的熔岩河流随机排列中自然存在
利用异常检测领域的现有研究,我们假设DRL智能体的神经模式可用于区分良性和后门改变的决策过程。为探索这一点,我们使用具有256神经元actor-critic框架的神经网络训练近端策略优化(PPO)智能体。简化设计有助于观察神经激活,辅助检测良性和基于后门的游戏片段之间的差异。在受控环境中,智能体导航至绿色方块以展示良性行为(如图3a所示),而后门触发器的存在导致其偏离进入熔岩(如图3b所示)。
通过我们的受损模型,我们检查了1000个良性和1000个后门游戏片段中的神经活动。分析显示两种场景下actor网络的平均神经活动存在显著差异,如下图所示。
图4:比较触发片段和目标片段期间actor网络256个神经元激活平均值时的平均神经元激活差异
我们进一步深入研究受影响最严重神经元的神经元激活水平分布,发现两种场景下的分布存在显著差异(如下图所示)。
图5a和5b:当1)目标在视野中和2)触发器在视野中时特定神经元的激活分布差异
图6a和6b:显示触发和非触发片段期间神经元激活水平转换的GIF
发现存在后门时表现出独特的神经活动后,我们基于神经元激活的上百分位水平和下百分位水平参数化轻量级分类器。下图展示了我们检测器的性能表现,它们通过神经激活成功识别隐藏后门,达到超过93%的F1分数。这一发现使我们向DRL的实际部署迈进了一步,因为它确认了神经激活在DRL操作中实时检测后门威胁的巨大潜力。例如,在涉及自动驾驶汽车的应用场景中,当触发器出现在其视野中时,可以立即将控制权交还给人类驾驶员,而不是允许算法采取恶意行动。
通过这项工作,我们通过引入能够识别环境中即使最隐蔽后门的强大实时方法,超越了DRL后门检测研究的现有基准。我们研究的见解为在各种算法和背景下应用我们的发现开辟了新途径。此外,这一突破使得能够通过受损智能体中的神经激活序列评估时间后门,这是一个目前缺乏有效解决方案的领域。
致谢
本研究由国防科学技术实验室(Dstl)资助,该实验室是英国国防部的执行机构,为国家和盟友提供世界级专业知识并交付尖端科学技术。该研究支持Dstl网络防御增强计划内的自主弹性网络防御(ARCD)项目。