摘要
Transformer深刻影响了AI研究,但其决策过程的可解释性仍具挑战性——即使是分类等相对简单的任务——这阻碍了其在真实场景中的可信部署。尽管基于激活的归因方法能有效解释Transformer文本分类模型,但研究发现这些方法可能受到激活中类别无关特征的干扰,导致解释可靠性下降。为此,提出Contrast-CAT方法,通过对比输入序列与参考激活来过滤无关特征,生成更清晰、更忠实的归因图。跨数据集和模型的实验证明,Contrast-CAT始终优于现有最优方法。在MoRF设定下,其AOPC和LOdds指标分别平均提升1.30倍和2.25倍。
方法核心
- 激活对比机制:通过对比输入序列激活与参考激活(如类别无关基线),分离出类别相关特征。
- 归因优化:采用基于梯度的显著性计算,结合对比后的激活差异生成细粒度token级归因。
- 评估指标:使用AOPC(归因精度曲线下面积)和LOdds(对数几率差异)量化解释质量。
实验结果
- 基准对比:在IMDb、AG News等数据集上,Contrast-CAT在归因一致性指标上超越LIME、Integrated Gradients等方法。
- 消融研究:验证参考激活的选择(如均匀噪声vs.类别反例)对最终解释的影响。
- 计算效率:单次前向传播+对比操作,额外计算开销低于基线方法15%。
应用价值
为医疗诊断、金融风控等高风险领域的Transformer模型提供透明化决策依据,符合欧盟《AI法案》等合规要求。