因果抽象：机制可解释性的理论基础

Atticus Geiger, Duligur Ibeling, Amir Zur, Maheep Chaudhary, Sonakshi Chauhan, Jing Huang, Aryaman Arora, Zhengxuan Wu, Noah Goodman, Christopher Potts, Thomas Icard; 26(83):1−64, 2025.

摘要

因果抽象为机制可解释性提供了理论基础，该领域致力于提供可理解的算法，这些算法是对黑盒AI模型中已知但不透明的底层细节的忠实简化。主要贡献包括：（1）将因果抽象理论从机制替换（即硬干预和软干预）推广到任意机制转换（即从旧机制到新机制的函数）；（2）为多义神经元、线性表示假设、模块化特征和分级忠实度等核心概念提供灵活而精确的形式化；（3）在因果抽象的统一框架下整合多种机制可解释性方法，包括激活修补和路径修补、因果中介分析、因果擦洗、因果追踪、电路分析、概念擦除、稀疏自编码器、差分二值掩码、分布式对齐搜索和导向控制。

[摘要][PDF][文献]

因果抽象理论：机制可解释性的基础

本文提出因果抽象理论作为机制可解释性的理论基础，通过泛化机制替换到任意机制转换，形式化多义神经元和线性表示假设等核心概念，并统一激活修补、因果中介分析等多种可解释性方法。

因果抽象：机制可解释性的理论基础

摘要