深度强化学习后门攻击的防御与缓解策略

本文探讨深度强化学习中的后门攻击问题,分析标准后门与分布内后门的差异,提出基于神经激活模式的新型检测方法,在MiniGrid环境中实现超过93%的F1分数,为DRL系统安全部署提供重要保障。

缓解深度强化学习后门攻击

本文介绍了深度强化学习智能体中嵌入后门的问题,并讨论了我们提出的防御方案。更多技术细节请参阅我们的论文和项目代码库。

深度强化学习(DRL)在流程自动化领域具有革命性潜力。从自动驾驶汽车的决策自动化,到辅助医疗诊断,甚至提升核聚变等离子体控制效率。虽然DRL的实际应用场景数不胜数,但DRL模型的开发过程本质上资源密集,常常超出小型实体的资源分配限制,导致对大组织的依赖。这种依赖性引入了重大风险,包括可能导致智能体在特定操作阶段出现不安全行为的策略缺陷。

不安全智能体行为可能源于针对DRL智能体策略的后门攻击。对AI智能体的后门攻击涉及故意的策略缺陷,设计在特定环境线索下触发意外的智能体行为偏差。标准后门的示例如图1b左上角所示,以3×3灰色像素的形式出现,每隔给定间隔意外出现,导致DRL智能体行为偏差。

图1a和1b:Atari Breakout游戏片段GIF,分别展示无后门触发的干净DRL策略(红色轮廓内)和带有灰色3×3像素触发的后门DRL策略

当前针对后门攻击的最先进解决方案提出了对标准后门的防御。然而,该解决方案需要大量计算时间才能成功从根深蒂固的中毒策略中净化DRL智能体。图1b below说明了防御如何通过创建"安全子空间"来成功过滤后门策略,以消除环境中的异常状态并允许良性智能体操作。

图2a和2b:被中毒DRL智能体玩的Atari Breakout游戏片段,左上角添加了标准后门触发(红色轮廓内)。2a是无防御的片段,2b是使用当前最先进防御和净化算法的片段

为了评估当前最先进解决方案对更隐蔽后门攻击的有效性,我们研究了分布内后门,这些攻击通过智能体环境中的变化发生,这些变化对智能体遇到的总体数据而言并非异常。我们设计了一个在环境中显示为缺失砖块的触发器,并对此后门应用最先进算法。结果我们观察到,由于其隐蔽外观,无法过滤此后门(如图2所示)。

图2:被分布内后门中毒的DRL智能体玩的Breakout Atari游戏,后门显示为砖块空间中间的缺失砖块(红色轮廓内)

该领域缺乏可行解决方案构成了DRL算法在实际应用中部署的主要障碍。根据应用场景不同,对分布内后门攻击的敏感性可能使对手策划灾难性后果,从自动驾驶系统中的车辆事故,到医疗环境中的误诊,以及核聚变操作中潜在的危及生命的风险。这对DRL在实际操作中构成了重大挑战,有可能阻止其在各个具有巨大潜力的现实领域中的整合。

为了检测隐藏的后门攻击,我们使用了MiniGrid Lava Crossings环境的改编版本,该环境由于每个片段中熔岩"河流"的随机配置而提供更高的可变性。我们的分布内后门类似于由熔岩河流形成的"+“符号,指示智能体在看到它时进入熔岩。

图3a和3b:修改后的Lava Crossings环境,包含原始6格熔岩河流(带有间隙)和另一个3格河流。"+“符号被表征为分布内后门,因为它在每个片段的熔岩"河流"随机排列中自然存在

利用异常检测方面的现有研究,我们假设DRL智能体的神经模式可用于区分良性和后门改变的决策过程。为了探索这一点,我们使用具有256个神经元actor-critic框架的神经网络训练了一个近端策略优化(PPO)智能体。简化设计有助于观察神经激活,帮助检测良性和基于后门的片段之间的差异。在受控环境中,智能体导航到绿色方块以展示良性行为,如图3a所示,而后门触发的存在导致其偏离进入熔岩,如图3b所示。

使用我们的受损模型,我们检查了1,000个良性和1,000个后门片段中的神经活动。该分析揭示了两种场景之间actor网络平均神经活动的显著差异,如下图所示。

图4:比较触发片段和目标片段期间actor网络256个神经元激活平均值时的平均神经元激活差异

我们进一步研究了受影响最严重神经元的神经元激活水平分布,并发现了两种场景中显著不同的分布(如下图所示)。

图5a和5b:特定神经元的激活分布差异,当1)目标在视野中和2)触在视野中时

图6a和6b:显示触发和非触发片段期间神经元激活水平转换的GIF

发现存在后门时展示出明显的神经活动后,我们基于神经元激活的上部和下部百分位数参数化了轻量级分类器。下面的可视化展示了我们检测器的性能,它们通过神经激活成功识别隐藏的后门,实现超过93%的F1分数。这一发现使我们向DRL的实际部署迈进了一步,因为它确认了神经激活在DRL操作中实时检测后门威胁方面的巨大潜力。例如,在涉及自动驾驶汽车的应用场景中,当触发出现在其视野中时,可以立即将控制权交给人类驾驶员,而不是允许算法采取恶意行动。

通过这项工作,我们通过引入强大、实时的方法,能够识别环境中即使是最隐蔽的后门,超越了DRL后门检测研究的现有基准。我们研究的见解为在各种算法和关于后门威胁的背景下应用我们的发现铺平了新途径。此外,这一突破使得能够通过受损智能体中的神经激活序列评估时间后门,这是目前缺乏有效解决方案的领域。

致谢

研究由国防科学技术实验室(Dstl)资助,该实验室是英国国防部的执行机构,提供世界级专业知识并提供尖端科学技术,造福国家和盟友。该研究支持Dstl网络防御增强计划内的自主弹性网络防御(ARCD)项目。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计