测量样本质量的Copula差异方法
现代贝叶斯机器学习中可扩展的马尔可夫链蒙特卡洛(MCMC)算法(如随机梯度Langevin动力学-SGLD)为了计算速度牺牲了渐近精确性,从而产生了一个关键的诊断缺口:当应用于有偏采样器时,传统的样本质量测量方法会灾难性地失效。
虽然基于Stein的强大诊断方法可以检测分布失配,但它们无法直接评估依赖结构——而依赖结构通常是多元问题中的主要推断目标。我们引入了Copula差异(CD),这是一种原则性强且计算效率高的诊断方法,利用Sklar定理来隔离和量化样本依赖结构的保真度,而不受其边缘分布的影响。
我们的理论框架提供了首个专门为近似推理时代设计的结构感知诊断方法。实证研究表明,基于矩的CD在有偏MCMC的超参数选择中显著优于有效样本大小等标准诊断方法,能够正确识别传统方法失败的优化配置。
此外,我们基于最大似然估计(MLE)的鲁棒变体能够检测尾部依赖中微妙但关键的失配问题,这些问题对于基于秩相关的方法仍然不可见,从而能够区分具有相同Kendall’s tau但极端事件行为根本不同的样本。
CD的计算开销比现有Stein差异低几个数量级,既为MCMC实践者提供了即时实用价值,又为下一代结构感知样本质量评估奠定了理论基础。