关于合成数据的一致性贝叶斯推断
摘要
生成合成数据(无论是否采用差分隐私技术)作为解决数据可用性与数据主体隐私之间困境的潜在方案,已引起广泛关注。多项研究表明,要实现合成数据下游分析的一致性(包括准确的不确定性估计),必须考虑合成数据生成过程。目前实现该目标的方法很少,且大多针对频率主义分析。本文研究如何从合成数据执行一致性贝叶斯推断。
研究证明,当分析者模型与数据提供者模型兼容时,通过混合从后验预测分布采样的多个大型合成数据集分别获得的后验样本,在标准正则条件下能够收敛到下游分析的后验分布。同时通过多个实例展示该理论在实际中的运作方式,并说明当兼容性假设不满足或合成数据集规模未显著大于原始数据时,贝叶斯推断可能失败的情况。
[摘要][PDF][Bib代码] [代码]