部分特征下的成员推理攻击
机器学习模型已被证明容易受到成员推理攻击,这种攻击可用于判断给定样本是否出现在训练数据中。现有的成员推理方法通常假设攻击者能够完全获取目标样本的所有特征。然而,这一假设在许多现实场景中并不成立,因为往往只能获得部分特征信息,从而限制了这些方法的适用性。
在本研究中,我们探讨了一种推理场景:攻击者仅能观测到每个样本的部分特征,并试图推断这些观测到的特征子集是否出现在目标模型的训练集中。我们将此问题定义为部分特征成员推理(PFMI)。
为解决这一问题,我们提出了MRAD(记忆引导重建与异常检测),这是一个两阶段攻击框架:
- 第一阶段:MRAD通过优化未知特征值来最小化样本损失
- 第二阶段:使用异常检测技术测量重建样本与训练分布之间的偏差
实证结果表明,MRAD在一系列数据集上均表现有效,并且与各种现成的异常检测技术保持兼容。例如,在STL-10数据集上,即使缺失40%的特征,我们的攻击仍能达到约0.6的AUC值。
主题分类:机器学习(cs.LG)、人工智能(cs.AI)、密码学与安全(cs.CR)