神经网络可解释性构建模块解析

本文深入探讨神经网络可解释性技术,结合特征可视化和归因分析等方法,揭示网络决策过程。通过语义字典、空间归因和通道归因等创新接口,实现对隐藏层行为的可视化解读,为模型行为分析提供系统化框架。

神经网络可解释性构建模块解析

可解释性技术的组合价值

可解释性技术通常被孤立研究。本文探索将这些技术组合时产生的强大接口,以及这种组合空间的丰富结构。

例如,通过将特征可视化(神经元在寻找什么?)与归因分析(如何影响输出?)相结合,可以探索网络如何区分像拉布拉多寻回犬和虎斑猫这样的标签。

多个下垂耳朵检测器在区分狗时似乎很重要,而尖耳朵则用于分类"虎斑猫"。

隐藏层的意义解析

最近的可解释性工作多关注神经网络的输入和输出层。这种关注源于这些层具有明确含义:在计算机视觉中,输入层表示输入图像每个像素的红、绿、蓝颜色通道值,而输出层包含类别标签及其相关概率。

然而,神经网络的力量在于其隐藏层——在每一层,网络都会发现输入的新表示。

在计算机视觉中,使用的神经网络在图像的每个位置运行相同的特征检测器。可以将每层学习到的表示视为一个三维立方体。立方体中的每个单元格都是一个激活,即神经元放电的量。

x轴和y轴对应于图像中的位置,z轴是正在运行的通道(或检测器)。

语义字典的构建

通过特征可视化,可以将抽象向量转换为更有意义的"语义字典"。这似乎包含用于下垂耳朵、狗口鼻、猫头、毛茸茸的腿和草地的检测器。某网络拥有丰富多样的耳朵检测器,帮助其区分100种狗。

要制作语义字典,需要将每个神经元激活与该神经元的可视化配对,并按激活幅度排序。激活和特征可视化的这种结合改变了我们与底层数学对象的关系。

激活现在映射到标志性表示,而不是抽象索引,许多表示似乎与显著的人类想法相似,如"下垂耳朵"、“狗口鼻"或"毛发”。

网络看到了什么?

语义字典让我们可以细粒度地查看激活:每个单个神经元检测到什么?基于这种表示,还可以将激活向量作为一个整体来考虑。

不是可视化单个神经元,而是可以可视化在给定空间位置放电的神经元组合。将这种技术应用于所有激活向量,不仅可以查看网络在每个位置检测到什么,还可以查看网络对整个输入图像的理解。

通过跨层工作(例如"mixed3a"、“mixed4d”),可以观察网络的理解如何演变:从在较早层检测边缘,到在后层检测更复杂的形状和对象部件。

概念如何组装?

特征可视化有助于回答网络检测到什么,但不能回答网络如何组装这些单独部分以得出后续决策,或者为什么做出这些决策。

归因是一组通过解释神经元之间关系来回答此类问题的技术。虽然有多种归因方法,但目前似乎没有明确的正确答案。

空间归因与显著图

归因最常见的接口称为显著图——一种简单的热图,突出显示最导致输出分类的输入图像像素。

当前方法存在两个弱点:首先,不清楚单个像素是否应该是归因的主要单位;其次,传统显著图是一种非常有限的接口类型。

相反,将归因视为另一个用户界面构建块,并将其应用于神经网络的隐藏层。这样做改变了可以提出的问题。

通道归因

显著图通过将归因应用于隐藏层的空间位置来隐式切片激活立方体。这聚合了所有通道,因此无法判断每个位置的哪些特定检测器最有助于最终输出分类。

切分立方体的另一种方式是按通道而不是空间位置。这样可以执行通道归因:每个检测器对最终输出的贡献有多大?

实现人类尺度

在前几节中,考虑了三种切分激活立方体的方式:空间激活、通道和单个神经元。每种都有主要缺点。

如果想要创建有用的神经网络接口,仅使事物有意义是不够的。需要使其达到人类尺度,而不是 overwhelming 的信息转储。这样做关键是找到更有意义的分解激活方式。

矩阵分解研究领域研究分解矩阵的最佳策略。通过将立方体展平为空间位置和通道的矩阵,可以应用这些技术来获得更有意义的神经元组。

可解释性接口空间

本文中提出的接口想法结合了特征可视化和归因等构建块。组合这些部分不是任意过程,而是基于接口目标遵循某种结构。

可以将接口视为单个元素的联合。每个元素使用特定的呈现风格(例如,特征可视化或传统信息可视化)显示特定类型的内容(例如,激活或归因)。

接口的可靠性

为了使可解释性接口有效,必须相信它们讲述的故事。目前使用的构建块集存在两个问题:首先,神经元在不同输入图像中是否具有相对一致的含义,并且该含义是否通过特征可视化准确具体化?其次,归因是否有意义,是否信任当前拥有的任何归因方法?

结论与未来工作

与枚举算法交互存在丰富的设计空间,相信与神经网络交互同样存在丰富的空间。在构建强大且可信的可解释性接口方面还有很多工作要做。但如果成功,可解释性有望成为实现有意义的人类监督以及构建公平、安全和对齐的AI系统的强大工具。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计