连续变量处理的因果推断挑战
在科学和商业应用中,我们经常关注处理(如更改网页字体)对响应变量(如访客停留时间)的因果效应。当处理是二元变量时,已有成熟方法处理混杂因素;但当处理是连续变量时,因果推断变得更加复杂且研究较少。
新方法:端到端平衡
在某中心机器学习国际会议上,我们提出了一种结合倾向得分加权、熵平衡和端到端机器学习的新方法。在两个不同的合成数据集上(一个线性关系,一个非线性关系),我们的方法相比四种现有方法表现更优:在线性数据集上,均方根误差降低27%;在非线性数据集上,误差降低38%。
技术核心:倾向得分与熵平衡
连续处理使得因果推断更加困难,主要是因为每个单元存在不可数的潜在结果。在连续处理设置中,因果推断模型将连续输入映射到连续输出,即响应曲线。
当两个变量都受到第三个变量(混杂因素)影响时,确定它们之间的因果关系变得困难。标准方法是通过倾向得分加权来考虑混杂因素,但倾向得分在某些单元可能非常大,导致数据不平衡和估计不稳定。
熵平衡通过选择权重来最小化权重之间的差异(即最大化熵),从而解决这个问题。
端到端平衡框架
我们的新算法基于熵平衡,通过端到端优化学习权重,直接最大化因果推断准确性。该框架包含以下关键组件:
- 输入:数据集中的混杂因素-处理对{xi, ai}
- 神经网络lq学习生成一组熵平衡权重{wi}
- 随机选择的响应函数µ-bar,根据处理(a)计算响应变量值(ȳ)
在训练过程中,神经网络学习生成熵平衡权重,以重建已知的响应函数µ-bar。训练完成后,我们将网络应用于真实数据集(包含真实y值),以估计真实的响应函数µ-hat。
理论保证
我们在论文中提供了理论分析,证明了我们方法的一致性。我们还研究了合成数据生成过程中错误设定的影响,表明即使初始选择高度不准确的随机响应函数µ-bar,也不会阻止模型收敛到真实响应函数µ-hat的良好估计。