摘要
高斯过程在功能数据分析、机器学习和空间统计中普遍用于建模复杂依赖关系。科学数据通常在输入方面存在异质性,并包含多个已知的离散样本组;因此,需要在考虑组间异质性的同时利用组间相似性。通过在此类域上开发有效(正定)协方差函数的通用类别,提出了定义在$R^p \times C$上的多组高斯过程(MGGP),其中$C$是表示组标签的有限集合。MGGP能够准确恢复组间关系,在推断过程中高效共享所有组样本的强度,同时在条件后验分布中捕获不同的组特异性行为。通过模拟实验展示了MGGP的推断能力,并将提出的MGGP回归框架应用于基因表达数据,通过对连续和分类变量联合建模来说明多组高斯过程的行为和增强的推断能力。
关键词
- 多组高斯过程
- 异质性数据建模
- 协方差函数
- 贝叶斯推断
- 基因表达分析
方法概述
提出的多组高斯过程(MGGP)框架包含以下核心组件:
协方差函数构建
开发定义在$R^p \times C$域上的正定协方差函数类,其中:
- $R^p$为连续输入空间
- $C$为有限组标签集合
模型特性
- 组间相似性利用:通过共享协方差结构实现跨组信息共享
- 异质性处理:在条件后验分布中保持组特异性行为
- 联合建模能力:同时处理连续变量和分类变量
推断与应用
- 通过模拟实验验证推断性能
- 在基因表达数据分析中展示实际应用效果
- 演示连续与分类变量的联合建模能力
技术贡献
- 提出了适用于异构群组结构数据的多组高斯过程框架
- 开发了定义在混合空间(连续×分类)上的有效协方差函数
- 实现了跨组强度共享与组特异性行为的平衡
- 提供了在生物信息学领域的实际应用案例
可用资源
- [代码实现]
- [学术论文]
- [参考文献]