因果推理技术解析现实数据变化

本文介绍了一种基于因果图的新方法,用于识别概率分布变化的主要原因。该方法通过计算各因果机制对最终结果的贡献度,在模拟数据测试中表现出色,平均偏差仅0.29,可应用于供应链管理等实际场景。

解释现实世界数据的变化

深度学习成功证明了统计相关性的力量:如果某些图像特征始终与"猫"标签相关,就可以训练机器学习模型识别猫。但有时相关性并不足够;需要识别因果关系。例如,在COVID-19大流行期间,零售商可能看到特定产品库存急剧下降。是什么导致了这种下降?需求增加?供应短缺?运输延迟?预测模型失败?补救措施可能因原因而异。

在国际人工智能与统计会议(AISTATS)上,研究人员提出了一种识别概率分布变化原因的新技术。该方法涉及因果图,这是顺序过程的图形蓝图。

图的每个节点及其传入边代表一个因果机制,或给定事件跟随前驱事件的概率。研究展示了如何计算单个机制变化对最终结果概率变化的贡献。

方法验证

使用模拟数据测试该方法,可以规定单个因果机制的概率,提供衡量基准。该方法产生的估计非常接近真实值——根据L1距离,偏差仅为0.29。即使在小样本量下(从规定的概率分布中随机抽取仅500个样本)也实现了这种性能。

考虑一个代表零售商手头库存量影响因素的因果图。(这是极度简化的;实际库存计数的因果图可能有数十个因素,而不是五个。)

在这个简化模型中:

  • 模拟系统估计补充库存的成本(X1)
  • 预测算法估计需求(X2)
  • 计划算法(X3)确定采购订单的大小和时间
  • 竞价(X4)机会性地发生,如大量产品以折扣价供应
  • 所有这些因素共同影响手头库存(X5)

该网络中的每个输入-输出关系都有相关的条件概率分布或因果机制。单个因果机制的概率决定所有变量(X1-X5)的联合分布,或任何给定变量组合共同出现的概率。这又决定了目标变量——手头库存量的概率分布。

核心洞察

最终结果的重大变化可能伴随着图中所有因果机制的变化。该技术识别变化对结果变化负最主要责任的因果机制。

基本洞察是:图中的任何给定因果机制原则上都可以在不影响其他机制的情况下改变。因此,给定因果图、初始因果机制和暗示新因果机制的数据,逐个更新因果机制以确定每个对结果的影响。

这种方法的问题是每个节点贡献的测量取决于更新节点的顺序。测量评估改变节点因果机制给定图中其他变量每个可能值的后果。但当更新因果机制时,这些值的概率会改变。因此,根据哪些因果机制已更新,会得到不同的测量结果。

为解决这个问题,研究人员遍历更新顺序的每个排列并平均每个节点的结果,这是对博弈论中称为计算Shapley值技术的改编。

实际应用

当然,在实践中,因果机制必须从数据中推断;不是提前给定概率分布。但为测试方法,创建了一个可以规定分布的简单因果图。然后,使用这些分布生成数据样本。

在图的因果机制100次不同的随机变化中,该方法表现非常好;每次变化500个数据样本,与真实值的平均偏差为0.29(按L1距离测量)。真实值至少是3维向量(最多6维),至少有一个分量大小至少为1(最多五个)。因此,最坏情况下0.29的L1距离仍然是相对较小的距离。

测试了不同量的数据样本,从500到4,000,但添加更多样本对近似精度影响很小。

内部也将该技术应用于供应链管理问题。对于特定产品系列,能够识别大流行期间手头库存持续下降的原因,而该数字在前一年保持稳定。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计