Contrast-CAT：基于激活对比的Transformer文本分类可解释性增强方法

摘要

Transformer深刻影响了AI研究，但其决策过程的可解释性仍具挑战性——即使是分类等相对简单的任务——这阻碍了其在真实场景中的可信部署。尽管基于激活的归因方法能有效解释Transformer文本分类模型，但研究发现这些方法可能受到激活中类别无关特征的干扰，导致解释可靠性下降。为此，提出Contrast-CAT方法，通过对比输入序列与参考激活来过滤无关特征，生成更清晰、更忠实的归因图。跨数据集和模型的实验证明，Contrast-CAT始终优于现有最优方法。在MoRF设定下，其AOPC和LOdds指标分别平均提升1.30倍和2.25倍。

方法核心

激活对比机制：通过对比输入序列激活与参考激活（如类别无关基线），分离出类别相关特征。
归因优化：采用基于梯度的显著性计算，结合对比后的激活差异生成细粒度token级归因。
评估指标：使用AOPC（归因精度曲线下面积）和LOdds（对数几率差异）量化解释质量。

实验结果

基准对比：在IMDb、AG News等数据集上，Contrast-CAT在归因一致性指标上超越LIME、Integrated Gradients等方法。
消融研究：验证参考激活的选择（如均匀噪声vs.类别反例）对最终解释的影响。
计算效率：单次前向传播+对比操作，额外计算开销低于基线方法15%。

应用价值

为医疗诊断、金融风控等高风险领域的Transformer模型提供透明化决策依据，符合欧盟《AI法案》等合规要求。