因果推断在面板数据中的新估计方法
在某中心机器学习会议(AMLC)的主题演讲中,某机构学术研究顾问、斯坦福大学教授兼新晋诺贝尔奖得主Guido Imbens就“面板数据”设置中因果效应的估计提供了见解。
自2013年以来,某中心每年举办一次内部会议——某中心机器学习会议(AMLC),来自公司各地的机器学习实践者齐聚一堂,分享工作、传授和学习新技术并讨论最佳实践。在2015年的第三届AMLC上,斯坦福大学商学院经济学教授Guido Imbens就因果性与机器学习举办了一场广受欢迎的教程。九年过去,在获得诺贝尔经济学奖后,Imbens——作为某中心学术研究顾问已进入第十年——成为2024年10月举行的AMLC主题演讲者之一。
在演讲中,Imbens讨论了因果推断,这是他30多年研究的主要方向,也是诺贝尔奖委员会在颁奖词中强调的主题。他特别考虑了所谓的面板数据,其中多个单元(例如产品、客户或地理区域)和结果(例如销售额或点击量)在离散时间点上被观测。在特定时间跨度内,某些单元接受处理(例如特殊产品促销或新环境法规),其效果反映在结果测量中。因果推断是确定结果随时间变化中有多少可归因于处理的过程。这意味着要调整由数据中一般趋势导致的虚假相关性,这些趋势可以从未处理(控制)单元的趋势中推断出来。
Imbens首先讨论了自己在某中心工作的价值。“我于2014年开始与某中心的人员合作,与这里的人互动,看到他们正在处理的问题类型、他们拥有的疑问类型,这对我的研究来说是一种真正的愉悦和灵感来源,”他表示,“在我的计量经济学、统计学和方法论研究中,我发现与在实践中使用这些方法、实际处理这些问题的人交谈非常有用。因此,在过去十年中与某中心的人员合作是一种真正的特权。”
面板数据
随后,他直接进入演讲的实质内容。他解释说,面板数据通常由一对矩阵表示,其行代表单元,列代表时间点。在一个矩阵中,条目代表在特定时间对特定单元进行的测量;另一个矩阵仅取二进制值,代表给定单元在相应时间跨度内是否受到处理。
理想情况下,对于给定单元和给定时间跨度,会运行一个实验,其中单元未经过处理;然后我们会回溯时间,再次运行实验,这次施加处理。但当然,时间无法回溯。因此,对于矩阵中的每个处理单元,我们估计如果未应用处理,相关测量会是什么,并基于其他单元和时间段的结果进行估计。
为便于解释,Imbens表示,他考虑了仅一个单元在一个时间间隔内被处理的情况:“一旦我拥有对该情况有效的方法,我建议的特定方法非常自然地扩展到更一般的分配机制,”他说,“这是一种非常常见的设置。”
控制估计
Imbens描述了五种标准方法,用于估计如果处理单元在同一时间段内未经过处理,结果会是什么。第一种方法在经济学实证工作中非常常见,称为差异中的差异(difference of differences)。它涉及对处理周期前所有未处理数据进行回归分析;然后回归函数可用于估计如果处理单元未经过处理时的结果。
第二种方法称为合成控制(synthetic control),其中处理单元的控制版本被合成为其他控制单元的加权平均。
“一个典型例子是,他[Alberto Abadie,某中心学者、合成控制先驱及Imbens的长期合作者]有兴趣估计1989年生效的加州反吸烟法规的效果,”Imbens解释道,“因此他尝试找到其他州的凸组合,使得该凸组合的吸烟率与1989年前加州的实际吸烟率匹配——例如,40%亚利桑那州、30%犹他州、10%华盛顿州和20%纽约州。一旦他拥有这些权重,他便估计加州的反事实吸烟率。”
第三种方法由Imbens和一位同事于2016年提出,向合成控制方程添加一个截距;即,它指定当所有单元测量为零时函数的输出值。
最后两种方法是差异中的差异的变体,向要优化的函数添加另一个项:一个低秩矩阵,以较低分辨率近似结果矩阵的结果。这些变体中的第一个——矩阵补全方法(matrix completion method)——简单地将该矩阵与加权因子添加到标准差异中的差异函数中。
第二种变体——合成差异中的差异(synthetic difference of differences)——根据控制单元与接受干预单元的相似性,加权单元-时间测量与回归曲线之间的距离。
“在吸烟示例的背景下,”Imbens说,“你给与加州相似、更匹配加州的单元分配更多权重。因此,与其假装特拉华州或阿拉斯加州与加州非常相似——除了它们的水平之外——你只对与加州非常相似的州赋予权重。”
缺点
在介绍这五种方法后,Imbens继续解释他认为这些方法存在的问题。第一个问题,他说,是它们将结果和处理矩阵都视为行(单元)和列(时间点)可交换的。也就是说,无论矩阵中行和列的排序如何,这些方法产生相同的结果。
“这里的单元可交换性似乎非常合理,”Imbens说,“我们可能有一些其他协变量,但原则上,没有什么能区分这些单元或建议以不同于可交换的方式处理它们。
“但对于时间维度,情况不同。你会认为,如果我们试图预测2020年的结果,拥有2019年测量的结果将比拥有1983年测量的结果有用得多。我们认为,随时间存在的相关性使得基于2019年值的预测比基于1983年值的预测更可能准确。”
第二个问题,Imbens说,是虽然这些方法在他考虑的仅单个单元-时间对被处理的特殊情况下效果良好——实际上,它们在处理分配具有清晰可辨结构的任何条件下都效果良好——但在处理分配更随机的情况下,它们会遇到困难。这是因为,随着随机分配,单元从一个时间段到下一个时间段不断进出控制组,使得准确的回归分析变得困难。
新估计器
因此,Imbens提出了一种新估计器,基于矩阵补全方法,但添加了额外项,对每个控制单元对回归分析的贡献应用两组权重。第一个权重根据单元测量与处理单元测量的时间距离减少其贡献——即,它优先考虑更近期的测量。
第二个权重根据控制单元测量与处理单元测量的绝对距离减少其贡献。这里的想法是限制稀疏数据集中异常值的影响——即控制单元不断进出的数据集。
Imbens随后在九个现有数据集上比较了他的新估计器与其他五种估计器的性能,这些数据集被选择用于测试先前估计器的准确性。在九个数据集中的八个上,Imbens的估计器优于所有五个前身,有时优势很大;在第九个数据集上,它以微弱差距仅次于差异中的差异方法——然而,该方法在其他几个数据集中排名最后。
“我不想将其推广为一种你在所有设置中都应该使用的特定估计器,”Imbens解释道,“我主要想表明,即使对现有估计器类别进行简单更改,通过以更令人满意的方式纳入时间维度,实际上可以比先前估计器表现好得多。”
然而,对于因果推断的目的,估计器的准确性并非唯一考虑因素。估计器的可靠性——其统计功效——还取决于其方差,即其误差范围在特定实例中偏离均值的程度。方差越低,估计器提供准确估计的可能性越大。
方差的方差
在演讲的剩余部分,Imbens讨论了估计反事实估计器方差的方法。这里事情变得有些混乱,因为方差估计器本身显示方差。Imbens主张使用条件方差估计器,它固定一些变量——在面板数据的情况下,单元、时间或两者——并估计自由变量的方差。与直觉相反,Imbens说,更高方差的方差估计器提供更多功效。
“一般来说,你应该偏好条件方差,因为它更适应你正在分析的特定数据集,”Imbens解释道,“它将给你更多功效来发现处理效应。而边际方差”——一种广泛使用的估计方差的替代方法——“本身具有最低方差,并且在检测处理效应方面通常具有最低功效。”
Imbens随后展示了一些使用合成面板数据的实验结果,表明确实,在数据异方差的情况下——意味着一个变量的方差随另一个变量值的增加而增加——本身使用条件方差的方差估计器比其他估计器具有更大的统计功效。
“显然还有更多工作要做,无论是在估计方面——尽管过去几年在该领域进行了所有工作——还是在方差估计方面,”Imbens总结道,“我认为这些模型的未来在于结果建模的组合,通过在因子模型和权重方面具有灵活性,确保你仅局部进行估计。我们需要在方差估计方面做更多工作,同时牢记功效和有效性,并在建模一些异方差性中发挥关键作用。”