利用因果分析提升可解释AI的解释能力

本文探讨如何通过因果分析改进基于概念的可解释AI模型,消除训练数据中的混杂因素,提升分类准确性和概念相关性识别能力,在鸟类图像数据集上实现25%的准确率提升。

利用因果分析提升可解释AI的解释能力

可解释性是当前AI研究的重要课题。当依赖深度学习系统做决策时,人们往往需要了解决策背后的原因。基于概念的解释是一种流行方法——模型不仅学习从输入特征预测标签,还学习为大量概念赋值。例如鸟类图像识别中,概念可能包括喙形、胸羽颜色和翼纹等特征。

但若训练数据存在混杂因素,这种方法就会出问题。例如若铲形喙鸟类总在水边拍摄,模型可能将水域图像与"喙形:铲状"概念错误关联,导致对湖边椋鸟照片产生荒谬判断。

在国际学习表征会议(ICLR 2021)发表的论文中,我们采用工具变量分析技术消除概念解释模型中的混杂因素。在带有概念标注的基准图像数据集测试中,该方法使分类准确率平均提升25%。通过移除再训练(ROAR)方法验证,该方法还能提升模型识别相关概念的能力。

因果图模型分析

研究从因果图开始,编码变量间的因果关系假设。基础模型认为预测目标(y)导致概念表征(c),进而导致输入(x)。混杂因素(u)会影响输入和学习到的概念(c),而(d)是我们希望获取的去偏概念。

以鸟类识别为例,u代表铲形喙鸟类常见的水域背景,c是受干扰的喙形概念,d则是与鸟类喙部视觉特征真实相关的去偏概念。此外,输入与标签间还存在绕过概念表征的第二因果路径。

工具变量分析方法

我们采用经典工具变量分析技术:当变量p对q存在被混杂因素u掩盖的因果效应时,引入与p相关但与q无关的工具变量z。通过回归从z估计p̂(独立于u),再回归q对p̂即可估计p对q的因果影响。

在更新后的因果模型中,我们通过回归从标签(y)估计概念(d),从(d)估计(c),切断u与估计概念ĉ的因果联系。实际应用中直接将c的估计值设为d的估计值。

实验结果

使用包含11,788张200类鸟类图像(标注312个概念)的基准数据集,训练两个概念解释模型。采用回归估计概念的模型比基线模型准确率高25%。

通过ROAR方法评估概念识别效果:逐步移除最不相关概念后重新训练。结果显示去偏模型在移除无关概念时表现出更大的相对准确率提升,证明其能更好识别相关概念。

这项研究为提升可解释AI系统的可靠性和实用性提供了新思路,特别是在医疗诊断等需要高可信度的应用场景。未来工作将探索更复杂的因果关系建模和跨领域概念迁移。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计