摘要
统计学习方法(如LASSO、弹性网络或梯度提升)已成为构建高效预测模型的常用工具,但实际分析常受缺失数据影响。多重插补是处理缺失数据的广泛使用方法,但其后的模型选择仍存在争议。简单策略(如跨数据集合并模型)已被证明效果欠佳,而复杂方法则难以实施。本文提出MIBoost算法,通过统一变量选择机制扩展组件式梯度提升框架,实验表明其预测性能与现有方法相当。
核心内容
-
背景与挑战
- 变量选择方法(如LASSO、梯度提升)在缺失数据场景中需结合多重插补,但传统跨数据集模型合并效果不佳。
- 现有改进方法(如基于单一损失函数的LASSO/弹性网络扩展)难以普及。
-
MIBoost算法
- 将统一损失函数原则引入组件式梯度提升,确保跨插补数据集的变量选择一致性。
- 通过模拟实验验证,其预测性能与最新方法相当。
-
技术贡献
- 提出首个针对多重插补数据的梯度提升变量选择框架。
- 提供可复现的算法实现(含2种算法描述)及仿真研究(21页)。
研究分类
- 学科领域:机器学习(stat.ML)、计算机科学(cs.LG)
- MSC分类:62J07(变量选择)、62H12(缺失数据)、62F07(统计推断)