DisC2o-HD:面向现实世界高维数据的协变量偏移分布式因果推断
摘要
高维医疗数据(如电子健康记录和理赔数据)因变量数量庞大且需整合多临床中心数据而面临两大挑战。第三大关键挑战是协变量偏移可能存在的异质性。本文提出一种考虑协变量偏移的分布式学习算法DisC2o-HD,用于估计高维数据的平均处理效应(ATE)。该方法利用替代似然法校准倾向评分和结果模型的估计值,近似达到理想的协变量平衡特性,同时考虑多临床中心间的协变量偏移。研究表明,分布式协变量平衡倾向评分估计量可逼近通过合并多中心数据获得的集中式估计量。当倾向评分模型或结果回归模型之一正确设定时,该估计量保持一致性;当两者均正确设定时,可达到半参数效率边界。通过模拟研究验证算法性能,并开展实证研究展示实施可行性与有效性。
关键词:分布式学习、因果推断、协变量偏移、高维数据、平均处理效应