大语言模型中的成员隐私风险

这项研究揭示了大型语言模型中的隐私漏洞，相关工作在2025年自然语言处理经验方法会议上荣获口头报告机会。

本文介绍了Brave的Hongyan Chang、Ali Shahin Shamsabadi、Kleomenis Katevas和Hamed Haddadi，以及新加坡国立大学的Reza Shokori的研究成果。

摘要

大型语言模型能够记忆并泄露敏感训练数据，构成严重的隐私风险。为了评估这种记忆和信息泄露，我们提出了CAMIA（上下文感知成员推理攻击），这是首个针对LLMs生成特性定制的方法，与先前方法相比，检测准确率提高了近一倍，并揭示了记忆发生的真实位置。

LLMs日益嵌入我们日常使用的产品中——从聊天机器人和虚拟助手到搜索引擎和生产力工具。随着这种集成，一个关键问题随之而来：这些模型是否会无意中泄露它们训练所用的数据？

考虑几个真实场景：

这些风险不仅关乎个人用户，也关乎面临监管、道德和声誉风险的机构。隐私失误可能违反数据保护法、版权规则，或破坏对已部署AI系统的信任。

成员推理攻击旨在通过测试给定数据点是否属于训练集来评估模型记忆。简单来说，攻击者会问：“模型在训练期间是否见过这个例子？”如果能够可靠推断出答案，模型就在泄露其训练数据的信息——这是直接的隐私风险。

核心直觉是机器学习模型在训练样本和未见样本上的行为通常不同。这些行为差异可能出现在损失值、置信度分数、预测稳定性或其他模型输出中。MIA系统性地利用这些差距：如果攻击者能够基于这些信号区分成员和非成员，就表明模型正在记忆并泄露训练数据。

一种思考方式是将其视为假设检验：

通过用Bob的记录探测模型并观察其行为，攻击者试图决定哪个假设更可能。如果模型的响应泄露了这些信息，意味着训练数据成员身份可以被推断，揭示了具体的隐私风险。

成员推理的一个简单实例是损失阈值攻击，其中如果模型在样本上的损失低于预定义阈值，则将该样本分类为成员。虽然这种基本方法在许多设置中有效，但更先进的MIA探测模型行为的更丰富方面——如输出熵、预测动态或影子模型——以实现更强的推理。

在LLMs背景下，一个直接的适应是计算模型在目标句子上的损失。如果损失与非训练文本相比异常低，这表明该句子可能被记忆。虽然这种简单适应已经可以揭示泄露，但在应用于LLMs时存在不足。

这是因为大多数MIA最初是为分类模型设计的，这些模型每个输入输出单个预测。然而，LLMs是生成式的：它们逐令牌生成文本，每个预测都以所有先前令牌的前缀为条件。这种顺序结构使得记忆具有上下文依赖性，意味着简单地聚合整个序列的损失会错过驱动泄露的关键令牌级动态。

考虑上图示例：

当前缀已经包含强烈线索时——例如“Harry Potter is…written by… The world of Harry…”——模型自信地预测下一个令牌“Potter”。这里的低损失是由于前缀提供了足够的上下文，而不是因为模型记忆了训练实例。
相比之下，如果前缀只是“Harry”，预测“Potter”需要更多依赖记忆的训练序列。在这种情况下，模型的低损失是成员身份的更强指标。

我们的关键见解是LLMs中的记忆是上下文依赖的。

因此，有效的成员推理攻击不应仅仅依赖整体序列损失，而应明确捕捉上下文如何在令牌级别塑造预测不确定性。

为了解决这个问题，我们引入了CAMIA（上下文感知成员推理攻击），这是一种跟踪不确定性在文本生成过程中如何演变的新方法。CAMIA能够：

通过关注这些上下文动态，CAMIA揭示了传统MIA无法检测到的LLMs记忆行为。

在MIMIR基准测试中，跨越六个Pythia（70M–12B参数）和GPT Neo（125M–2.7B参数）模型以及六个领域（包括Web、Wikipedia、Medical、News、Mathematics、Arxiv和GitHub），CAMIA始终优于现有攻击。

CAMIA是有效的：在ArXiv数据集上应用于Pythia 2.8B时，它将真阳性率从20.11%提高到32.00%，同时将假阳性率保持在1%（更高的TPR和更低的FPR表示更好的攻击性能）
CAMIA是计算高效的：它仅需要计算和组合成员信号。使用单个A100 GPU评估Arxiv数据集的1,000个样本，CAMIA在大约38分钟内完成

CAMIA被2025年自然语言处理经验方法会议接受为口头报告，并获杰出论文奖提名。CAMIA将于2025年11月4日至9日在中国苏州的会议上展示。

CAMIA也作为开源实现提供。