Contrast-CAT:基于激活对比的Transformer文本分类可解释性增强方法

本文提出Contrast-CAT方法,通过对比输入序列与参考激活来过滤类别无关特征,显著提升Transformer文本分类模型的可解释性。实验表明,该方法在AOPC和LOdds指标上分别平均提升1.30倍和2.25倍。

摘要

Transformer深刻影响了AI研究,但其决策过程的可解释性仍具挑战性——即使是分类等相对简单的任务——这阻碍了其在真实场景中的可信部署。尽管基于激活的归因方法能有效解释Transformer文本分类模型,但研究发现这些方法可能受到激活中类别无关特征的干扰,导致解释可靠性下降。为此,提出Contrast-CAT方法,通过对比输入序列与参考激活来过滤无关特征,生成更清晰、更忠实的归因图。跨数据集和模型的实验证明,Contrast-CAT始终优于现有最优方法。在MoRF设定下,其AOPC和LOdds指标分别平均提升1.30倍和2.25倍。

方法核心

  1. 激活对比机制:通过对比输入序列激活与参考激活(如类别无关基线),分离出类别相关特征。
  2. 归因优化:采用基于梯度的显著性计算,结合对比后的激活差异生成细粒度token级归因。
  3. 评估指标:使用AOPC(归因精度曲线下面积)和LOdds(对数几率差异)量化解释质量。

实验结果

  • 基准对比:在IMDb、AG News等数据集上,Contrast-CAT在归因一致性指标上超越LIME、Integrated Gradients等方法。
  • 消融研究:验证参考激活的选择(如均匀噪声vs.类别反例)对最终解释的影响。
  • 计算效率:单次前向传播+对比操作,额外计算开销低于基线方法15%。

应用价值

为医疗诊断、金融风控等高风险领域的Transformer模型提供透明化决策依据,符合欧盟《AI法案》等合规要求。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计