利用因果分析提升可解释AI的解释能力

可解释性是当前AI研究的重要课题。当依赖深度学习系统做决策时，人们往往需要了解决策背后的原因。基于概念的解释是一种流行方法——模型不仅学习从输入特征预测标签，还学习为大量概念赋值。例如鸟类图像识别中，概念可能包括喙形、胸羽颜色和翼纹等特征。

但若训练数据存在混杂因素，这种方法就会出问题。例如若铲形喙鸟类总在水边拍摄，模型可能将水域图像与"喙形：铲状"概念错误关联，导致对湖边椋鸟照片产生荒谬判断。

在国际学习表征会议（ICLR 2021）发表的论文中，我们采用工具变量分析技术消除概念解释模型中的混杂因素。在带有概念标注的基准图像数据集测试中，该方法使分类准确率平均提升25%。通过移除再训练（ROAR）方法验证，该方法还能提升模型识别相关概念的能力。

因果图模型分析

研究从因果图开始，编码变量间的因果关系假设。基础模型认为预测目标(y)导致概念表征(c)，进而导致输入(x)。混杂因素(u)会影响输入和学习到的概念(c)，而(d)是我们希望获取的去偏概念。

以鸟类识别为例，u代表铲形喙鸟类常见的水域背景，c是受干扰的喙形概念，d则是与鸟类喙部视觉特征真实相关的去偏概念。此外，输入与标签间还存在绕过概念表征的第二因果路径。

我们采用经典工具变量分析技术：当变量p对q存在被混杂因素u掩盖的因果效应时，引入与p相关但与q无关的工具变量z。通过回归从z估计p̂（独立于u），再回归q对p̂即可估计p对q的因果影响。

在更新后的因果模型中，我们通过回归从标签(y)估计概念(d)，从(d)估计(c)，切断u与估计概念ĉ的因果联系。实际应用中直接将c的估计值设为d的估计值。

使用包含11,788张200类鸟类图像（标注312个概念）的基准数据集，训练两个概念解释模型。采用回归估计概念的模型比基线模型准确率高25%。

通过ROAR方法评估概念识别效果：逐步移除最不相关概念后重新训练。结果显示去偏模型在移除无关概念时表现出更大的相对准确率提升，证明其能更好识别相关概念。

这项研究为提升可解释AI系统的可靠性和实用性提供了新思路，特别是在医疗诊断等需要高可信度的应用场景。未来工作将探索更复杂的因果关系建模和跨领域概念迁移。