分布式数据下的选择性推断方法

本文提出一种针对分布式数据的选择性推断方法,通过本地机器求解lasso问题并传输选定预测变量至中央节点,构建广义线性模型并提供有效统计推断,同时保障数据隐私并降低通信成本。方法适用于重复模型选择场景,解决p值 lottery问题。

选择性推断与分布式数据

Sifan Liu, Snigdha Panigrahi; 26(12):1−44, 2025.

摘要

当数据分散在多个站点或机器而非集中存储时,研究人员面临在不直接共享个体数据点的情况下提取有效信息的挑战。虽然存在许多使用稀疏回归进行点估计的分布式方法,但基于估计稀疏性进行不确定性估计或假设检验的方案却很少。本文提出一种在分布式数据环境下执行选择性推断的流程。

我们考虑这样一种场景:每台本地机器求解一个lasso问题,并将选定的预测变量传输至中央机器。中央机器随后聚合这些选定的预测变量以构建广义线性模型(GLM)。我们的目标是为选定的GLM提供有效推断,同时重复使用已在模型选择过程中使用的数据。所提出的方法仅需要从本地机器获取低维摘要统计量,从而保持较低的通信成本并保护个体数据集的隐私。

此外,该方法可应用于在随机子采样数据集上重复进行模型选择的场景,解决了与模型选择相关的p值 lottery问题。我们通过模拟实验和对ICU入院医疗数据集的分析证明了方法的有效性。

[abs][pdf][bib] [code]


© JMLR 2025.
(edit, beta)

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计