什么是合成数据？优势、风险与技术挑战

共享数据通常能够实现引人注目的应用和分析。然而，宝贵的数据集往往包含敏感信息，共享它们可能会危及用户和组织的隐私。

研究界日益关注的一个替代方案是共享合成数据。其理念是发布人工生成的数据集，这些数据集与真实数据相似——更准确地说，具有相似的统计特性。

那么，如何生成合成数据？它有什么用途？有哪些好处和风险？还有哪些基本限制和未解决的开放研究问题？

好吧，让我们开始吧！

如何安全发布数据？

在讨论合成数据之前，让我们先考虑“替代方案”。

匿名化：理论上，可以在共享之前删除个人可识别信息。然而，在实践中，匿名化无法提供实际的隐私保证，因为恶意行为者通常拥有辅助信息，能够重新识别匿名化数据。例如，当Netflix对电影评分进行去标识化（作为寻求更好推荐系统的挑战的一部分）时，Arvind Narayanan和Vitaly Shmatikov通过将其与IMDb上的公共信息进行交叉引用，重新识别了大部分数据。

聚合：另一种方法是共享数据集的聚合统计信息。例如，电信公司可以提供关于在特定时间有多少人在某些特定位置的统计数据——例如，评估人流量并决定在哪里开设新店。然而，这通常也无效，因为聚合数据仍然可以帮助对手了解特定个体的信息。

差分隐私：更有希望的尝试来自提供对从数据中获得的统计信息的访问，同时在查询响应中添加噪声，保证差分隐私。然而，这种方法通常会降低数据集的效用，尤其是在高维数据上。此外，允许对数据集进行无限的非平凡查询可能会泄露整个数据集，因此这种方法需要随时间跟踪隐私预算。

合成数据的类型

生成合成数据有不同的方法。Alan Turing Institute的Derek Snow列出了三种主要方法：

手工设计方法：使用专家意见从真实数据中识别底层分布，并试图模仿它。
基于代理的模型：建立已知代理，并允许它们按照规定的规则进行交互，希望这种交互最终能够产生与原始数据集相似的分布配置文件。
生成式机器学习模型：使用概率模型学习数据集的生成方式，并通过从学习到的分布中采样来创建合成数据。

在本文的其余部分，我们将重点关注生成模型，因为它们通常被认为是最先进的技术。（其他方法包括插补模型。）

背景：生成式与判别式模型

理解生成模型工作原理的一个好方法是看它们与判别模型的不同之处。假设我们想识别哪些画作是文森特·梵高的作品。首先，我们标记一个我们知道是否由梵高绘制的艺术品数据集。然后，我们训练一个判别模型来学习梵高的特定特征（例如，颜色、形状或纹理）。我们现在可以使用该模型来预测梵高是否创作了任何画作。

判别式机器学习模型 [来源：David Foster, Generative Deep Learning]

现在假设我们想生成一匹不存在但看起来仍然真实的马的新图像。我们训练一个生成模型来学习马的样子。为此，我们需要一个包含许多马示例（观察）的数据集。

生成式机器学习模型 [来源：David Foster, Generative Deep Learning]

每个观察都有许多特征（或特征），例如，每个像素值。目标是构建一个模型，可以生成新的特征集，这些特征集看起来像是使用与原始数据相同的规则创建的。

算法

用于生成合成数据的生成模型可能使用多种架构。你可能听说过生成对抗网络（GANs），它可以用于生成人工图像、视频等。（听说过深度伪造吗？）。GANs的基本思想是让两个神经网络相互对抗：生成器试图通过产生看起来真实的图像来欺骗判别器，而判别器试图区分真实和虚假图像。当判别器无法再辨别时，过程结束。

GAN生成的人工图像 [来源：NVIDIA]

除了GANs，其他架构也用于生成合成数据。例如，变分自编码器试图将数据压缩到较低维空间，然后将其重建回原始空间。更多方法包括受限玻尔兹曼机、贝叶斯网络、马尔可夫随机场、马尔可夫链蒙特卡罗方法等。（顺便说一下，你知道ChatGPT也是一个生成模型吗？）

注意：在整篇文章中，我有些滥用“生成模型”这个术语。虽然我们考虑的所有合成数据技术都使用机器学习模型（它们训练模型以学习数据集分布），但有些在技术上不是生成模型。请允许我这样做 ☺️

合成数据可用于什么？

让我们从公司如何营销其合成数据技术开始，查看Datagen.tech、Mostly.ai、Hazy.com、Gretel.ai和Aindo.com的材料。他们提到了几个用例，包括：

训练机器学习模型：合成数据可用于增强真实数据，对代表性不足的类进行上采样/重新平衡，或使模型对特殊事件更鲁棒，例如，在欺诈检测、医疗保健等背景下。
产品和软件测试：生成合成测试数据可能比获取基于规则的真实测试数据更容易，以在测试期间提供“灵活性、可扩展性和真实性”。例如，公司通常无法合法地将生产数据用于测试目的。
治理：合成数据有助于消除偏见、压力测试模型并增加可解释性。
隐私：合成数据可以在跨组织和组织内共享或使用数据时缓解隐私问题。数据集被认为是“匿名的”、“安全的”或不含个人可识别信息。这使数据科学家能够遵守数据保护法规，如HIPAA、GDPR、CCPA等。

总体而言，在过去几年中，工业界和政府都有一些倡议和努力。例如，英国国家医疗服务体系试点了一个项目，发布来自“A&E”（即急诊室）活动数据和入院患者护理的合成数据。2018年和2020年，美国国家标准与技术研究院（NIST）举办了两个与合成数据相关的挑战：差分隐私合成数据和时序地图挑战，奖励现金寻求创新的合成数据算法和指标。

使用合成数据的风险

为了推理合成数据的风险，研究人员使用了一些“指标”来测量隐私属性。

链接

因为合成数据是“人工的”，一个常见的论点是，与匿名化记录不同，真实记录和合成记录之间没有直接链接。因此，研究人员使用了真实记录和合成记录之间的相似性测试来支持合成数据的安全性。然而，不幸的是，这种指标未能抓住战略对手使用可能受目标存在影响的特征的真实风险。

属性披露

每当访问数据允许攻击者了解特定个体的新信息时，就会发生这种隐私侵犯，例如，特定属性的值，如种族、年龄、收入等。不幸的是，如果真实数据包含属性之间的强相关性，这些相关性可能会在合成数据中复制并可供对手使用。此外，Theresa Stadler等人表明，具有稀有属性或其存在影响数值属性范围的记录仍然高度容易披露。

攻击

粗略地说，链接通常被表述为成功的成员推理攻击。这里，对手旨在推断特定目标个体的数据是否被合成数据生成过程所依赖：

成员推理 [来源：Membership Inference Attacks Against Synthetic Health Data]

考虑上图中使用合成健康图像进行研究的例子：发现特定记录被用于研究泄露了有关个人健康的信息。

属性披露通常被表述为属性/属性推理攻击。这里，对手在给定某些用户的一些公共信息的情况下，试图重建某些目标用户的一些私有属性。

属性推理

攻击有多现实？

关于大多数隐私研究的一个重要事情是，它们不提供“二进制”答案，例如，告诉我们某些方法要么提供完美的隐私，要么根本不提供隐私。相反，它们提供了概率分布，面对不同的系统/威胁模型、对抗假设、数据集等。然而，情况相当黯淡，最先进的研究确定了大量差距。这方面的一个好例子是最近的研究论文“合成数据——匿名化土拨鼠日”，该论文表明，在实践中，与匿名化技术相比，合成数据提供的额外保护很少，隐私-效用权衡甚至更难预测。

进入差分隐私

我们能否做些什么来增加合成数据的隐私保护？提供免受推理的信息访问的最先进方法是满足差分隐私。一般来说，差分隐私提供了数学保证，防止对手从学习某些算法的结果中推断出什么。换句话说，它保证个体将面临相同的隐私风险，无论她的数据是否包含在差分隐私分析中。

总体而言，差分隐私通常通过在不同步骤添加噪声来实现。在合成数据的背景下，想法是以差分隐私的方式训练用于生成合成数据的生成模型。通常，使用三种方法之一：使用拉普拉斯机制，在随机梯度下降期间净化梯度，或使用称为PATE的技术。由此产生的方法倾向于将生成模型架构与差分隐私相结合；最先进的工具包括DP-GAN、DP-WGAN、DP-Syn、PrivBayes、PATE-GAN等。相关论文（带代码）列表可在Georgi Ganev的GitHub上找到。

固有局限性

作为隐私研究人员，我对合成数据局限性的关注主要在于其安全和隐私缺陷。可能还有其他挑战，例如关于可用性、保真度和可解释性，但我让我更合格的同事来补充。

在隐私方面，合成数据不太可能提供银弹来净化敏感数据或安全地全面共享机密信息。相反，可能会有特定的用例，其中训练生成模型比替代方案提供更好的灵活性和隐私保护。例如，金融公司可以使用合成数据来确保生产数据不用于测试或在不同的子组织之间共享。或者，政府机构可以使公民和实体能够从某些数据分布中提取高级统计信息，而无需自己动手。

但这些案例研究 arguably 不会推广。简而言之，没有差分隐私（或具有非常大隐私预算）训练的生成模型不提供高水平的安全性、隐私性或机密性。相反，差分隐私可以，但对效用/准确性有不可忽略的成本。更准确地说，保护隐私本质上意味着你必须“隐藏”脆弱的数据点，如异常值等。因此，如果你想使用合成数据对代表性不足的类进行上采样，训练欺诈/异常检测模型等，你将面临隐私或效用的选择。

另一个限制是，可用的隐私机制必须是可预测的，即建立在如何

合成数据揭秘：优势、风险与技术挑战

本文深入探讨合成数据的生成技术、应用场景与隐私风险，涵盖生成对抗网络(GANs)、差分隐私等关键技术，分析其在机器学习训练和数据共享中的实际应用与局限性。