利用因果分析提升可解释AI的解释能力
可解释性是当前AI研究的重要课题。当依赖深度学习系统做决策时,人们往往需要了解决策背后的原因。基于概念的解释是一种流行方法——模型不仅学习从输入特征预测标签,还学习为大量概念赋值。例如鸟类图像识别中,概念可能包括喙形、胸羽颜色和翼纹等特征。
但若训练数据存在混杂因素,这种方法就会出问题。例如若铲形喙鸟类总在水边拍摄,模型可能将水域图像与"喙形:铲状"概念错误关联,导致对湖边椋鸟照片产生荒谬判断。
在国际学习表征会议(ICLR 2021)发表的论文中,我们采用工具变量分析技术消除概念解释模型中的混杂因素。在带有概念标注的基准图像数据集测试中,该方法使分类准确率平均提升25%。通过移除再训练(ROAR)方法验证,该方法还能提升模型识别相关概念的能力。
因果图模型分析
研究从因果图开始,编码变量间的因果关系假设。基础模型认为预测目标(y)导致概念表征(c),进而导致输入(x)。混杂因素(u)会影响输入和学习到的概念(c),而(d)是我们希望获取的去偏概念。
以鸟类识别为例,u代表铲形喙鸟类常见的水域背景,c是受干扰的喙形概念,d则是与鸟类喙部视觉特征真实相关的去偏概念。此外,输入与标签间还存在绕过概念表征的第二因果路径。
工具变量分析方法
我们采用经典工具变量分析技术:当变量p对q存在被混杂因素u掩盖的因果效应时,引入与p相关但与q无关的工具变量z。通过回归从z估计p̂(独立于u),再回归q对p̂即可估计p对q的因果影响。
在更新后的因果模型中,我们通过回归从标签(y)估计概念(d),从(d)估计(c),切断u与估计概念ĉ的因果联系。实际应用中直接将c的估计值设为d的估计值。
实验结果
使用包含11,788张200类鸟类图像(标注312个概念)的基准数据集,训练两个概念解释模型。采用回归估计概念的模型比基线模型准确率高25%。
通过ROAR方法评估概念识别效果:逐步移除最不相关概念后重新训练。结果显示去偏模型在移除无关概念时表现出更大的相对准确率提升,证明其能更好识别相关概念。
这项研究为提升可解释AI系统的可靠性和实用性提供了新思路,特别是在医疗诊断等需要高可信度的应用场景。未来工作将探索更复杂的因果关系建模和跨领域概念迁移。