贝叶斯稀疏高斯混合模型在高维聚类中的应用研究
摘要
研究了当聚类数量允许随样本量增长时的稀疏高维高斯混合模型。建立了参数估计的极小极大下界,并证明约束最大似然估计量可以达到该下界。然而,这种基于优化的估计量在计算上难以处理,因为目标函数高度非凸且可行集包含离散结构。
为解决计算挑战,提出了一种计算可行的贝叶斯方法,使用连续尖峰-平板先验来估计聚类中心呈现稀疏性的高维高斯混合模型。进一步证明所提贝叶斯方法的后验收缩率是极小极大最优的。使用矩阵扰动理论工具获得了错误聚类率作为副产品。
所提出的贝叶斯稀疏高斯混合模型不需要预先指定聚类数量,可以自适应估计。通过模拟研究和真实世界单细胞RNA测序数据集的分析证明了该方法的有效性和实用性。
关键词
高维聚类、稀疏性、高斯混合模型、贝叶斯推断、后验收敛
方法
模型框架
采用连续尖峰-平板先验对高维高斯混合模型的聚类中心进行稀疏建模,允许聚类数量随样本量自适应增长。
理论性质
- 建立了参数估计的极小极大下界
- 证明后验收缩率达到极小极大最优性
- 推导出错误聚类率的理论界
计算优势
相比传统的约束最大似然估计方法,贝叶斯方法避免了高度非凸优化问题,提供了计算上更可行的解决方案。
实验验证
通过模拟研究和单细胞RNA测序数据分析验证了方法的有效性和实用性,展示了在真实世界高维数据聚类任务中的优异性能。