选择性推断与分布式数据

Sifan Liu, Snigdha Panigrahi; 26(12):1−44, 2025.

摘要

当数据分散在多个站点或机器而非集中存储时，研究人员面临在不直接共享个体数据点的情况下提取有效信息的挑战。虽然存在许多使用稀疏回归进行点估计的分布式方法，但基于估计稀疏性进行不确定性估计或假设检验的方案却很少。本文提出一种在分布式数据环境下执行选择性推断的流程。

我们考虑这样一种场景：每台本地机器求解一个lasso问题，并将选定的预测变量传输至中央机器。中央机器随后聚合这些选定的预测变量以构建广义线性模型（GLM）。我们的目标是为选定的GLM提供有效推断，同时重复使用已在模型选择过程中使用的数据。所提出的方法仅需要从本地机器获取低维摘要统计量，从而保持较低的通信成本并保护个体数据集的隐私。

此外，该方法可应用于在随机子采样数据集上重复进行模型选择的场景，解决了与模型选择相关的p值 lottery问题。我们通过模拟实验和对ICU入院医疗数据集的分析证明了方法的有效性。

[abs][pdf][bib] [code]