因果抽象:机制可解释性的理论基础
Atticus Geiger, Duligur Ibeling, Amir Zur, Maheep Chaudhary, Sonakshi Chauhan, Jing Huang, Aryaman Arora, Zhengxuan Wu, Noah Goodman, Christopher Potts, Thomas Icard; 26(83):1−64, 2025.
摘要
因果抽象为机制可解释性提供了理论基础,该领域致力于提供可理解的算法,这些算法是对黑盒AI模型中已知但不透明的底层细节的忠实简化。主要贡献包括:(1)将因果抽象理论从机制替换(即硬干预和软干预)推广到任意机制转换(即从旧机制到新机制的函数);(2)为多义神经元、线性表示假设、模块化特征和分级忠实度等核心概念提供灵活而精确的形式化;(3)在因果抽象的统一框架下整合多种机制可解释性方法,包括激活修补和路径修补、因果中介分析、因果擦洗、因果追踪、电路分析、概念擦除、稀疏自编码器、差分二值掩码、分布式对齐搜索和导向控制。
[摘要][PDF][文献]