高维稀疏高斯混合模型的贝叶斯聚类方法

本文提出了一种基于连续尖峰-平板先验的贝叶斯稀疏高斯混合模型,用于处理聚类数量随样本量增长的高维数据。该方法不需要预先指定聚类数量,通过后验收缩率证明达到了极小极大最优性,并在模拟研究和单细胞RNA测序数据中验证了有效性。

贝叶斯稀疏高斯混合模型在高维聚类中的应用研究

摘要

研究了当聚类数量允许随样本量增长时的稀疏高维高斯混合模型。建立了参数估计的极小极大下界,并证明约束最大似然估计量可以达到该下界。然而,这种基于优化的估计量在计算上难以处理,因为目标函数高度非凸且可行集包含离散结构。

为解决计算挑战,提出了一种计算可行的贝叶斯方法,使用连续尖峰-平板先验来估计聚类中心呈现稀疏性的高维高斯混合模型。进一步证明所提贝叶斯方法的后验收缩率是极小极大最优的。使用矩阵扰动理论工具获得了错误聚类率作为副产品。

所提出的贝叶斯稀疏高斯混合模型不需要预先指定聚类数量,可以自适应估计。通过模拟研究和真实世界单细胞RNA测序数据集的分析证明了该方法的有效性和实用性。

关键词

高维聚类、稀疏性、高斯混合模型、贝叶斯推断、后验收敛

方法

模型框架

采用连续尖峰-平板先验对高维高斯混合模型的聚类中心进行稀疏建模,允许聚类数量随样本量自适应增长。

理论性质

  • 建立了参数估计的极小极大下界
  • 证明后验收缩率达到极小极大最优性
  • 推导出错误聚类率的理论界

计算优势

相比传统的约束最大似然估计方法,贝叶斯方法避免了高度非凸优化问题,提供了计算上更可行的解决方案。

实验验证

通过模拟研究和单细胞RNA测序数据分析验证了方法的有效性和实用性,展示了在真实世界高维数据聚类任务中的优异性能。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计