因果抽象理论:机制可解释性的基础

本文提出因果抽象理论作为机制可解释性的理论基础,通过泛化机制替换到任意机制转换,形式化多义神经元和线性表示假设等核心概念,并统一激活修补、因果中介分析等多种可解释性方法。

因果抽象:机制可解释性的理论基础

Atticus Geiger, Duligur Ibeling, Amir Zur, Maheep Chaudhary, Sonakshi Chauhan, Jing Huang, Aryaman Arora, Zhengxuan Wu, Noah Goodman, Christopher Potts, Thomas Icard; 26(83):1−64, 2025.

摘要

因果抽象为机制可解释性提供了理论基础,该领域致力于提供可理解的算法,这些算法是对黑盒AI模型中已知但不透明的底层细节的忠实简化。主要贡献包括:(1)将因果抽象理论从机制替换(即硬干预和软干预)推广到任意机制转换(即从旧机制到新机制的函数);(2)为多义神经元、线性表示假设、模块化特征和分级忠实度等核心概念提供灵活而精确的形式化;(3)在因果抽象的统一框架下整合多种机制可解释性方法,包括激活修补和路径修补、因果中介分析、因果擦洗、因果追踪、电路分析、概念擦除、稀疏自编码器、差分二值掩码、分布式对齐搜索和导向控制。

[摘要][PDF][文献]

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计