Synth-MIA:表格数据合成中的隐私泄露审计测试平台
表格生成模型通常被认为能通过创建与训练数据相似的合成数据集来保护隐私。然而,审计其实际隐私保护效果仍面临挑战,因为常用的相似性指标难以有效表征隐私风险。成员推理攻击(MIAs)最近成为评估合成数据隐私泄露的方法,但其实际效果有限。不同威胁模型中存在多种攻击方法,每种攻击针对不同的隐私泄露源并有独特实现方式,导致难以一致应用。此外,没有单一攻击方法能持续优于其他方法,这导致隐私风险经常被低估。
为解决这些问题,我们提出一个统一的、与模型无关的威胁框架,通过部署一系列攻击来估计合成数据集的最大实际隐私泄露。我们推出Synth-MIA,这是一个开源Python库,通过新型测试平台简化审计流程,该平台通过类Scikit-Learn API无缝集成到现有合成数据评估流程中。我们的软件通过类Scikit-Learn API实现了13种攻击方法,旨在为从业者快速系统评估隐私泄露,同时促进研究人员开发新攻击和实验。
我们在迄今最大的表格合成隐私基准测试中验证了该框架的实用性,发现更高的合成数据质量对应更大的隐私泄露,基于相似性的隐私指标与MIA结果相关性较弱,且差分隐私生成器PATEGAN在此类攻击下可能无法保护隐私。这强调了在设计和部署表格生成模型时进行基于MIA审计的必要性。