大语言模型中的成员隐私风险
研究 | 揭示大语言模型中的隐私漏洞,该研究荣获2025年自然语言处理实证方法会议口头报告资格。
本文介绍了Brave的Hongyan Chang、Ali Shahin Shamsabadi、Kleomenis Katevas和Hamed Haddadi,以及新加坡国立大学的Reza Shokri的研究工作。
摘要
大语言模型(LLMs)能够记忆并泄露敏感训练数据,构成严重隐私风险。为评估此类记忆化和信息泄露,我们推出了CAMIA(上下文感知成员推理攻击)——首个针对LLMs生成特性定制的方法,相比现有方法将检测准确率提升近一倍,并真实揭示了记忆化发生的具体位置。
为什么需要关注LLMs中的隐私问题?
LLMs正日益嵌入我们日常使用的产品中——从聊天机器人、虚拟助手到搜索引擎和生产力工具。随着这种集成,一个关键问题随之出现:这些模型是否会无意中泄露其训练数据?
考虑以下几个真实场景:
- 医疗健康:如果临床笔记被用于训练,模型可能意外泄露敏感患者信息
- 企业环境:如果内部邮件或文档被包含,攻击者可能诱使模型重现私人通信。例如,LinkedIn最近宣布计划使用用户数据改进其生成式AI模型(包括LLMs),引发了对内部通信或私人内容是否可能出现在生成输出中的担忧
- 教育和媒体:如果考试题目或付费内容出现在训练数据中,模型可能会逐字复述
这些风险不仅关乎个人用户,也关乎面临监管、道德和声誉风险的机构。隐私失误可能违反数据保护法、版权规则,或破坏对已部署AI系统的信任。
如何衡量LLMs中的隐私风险?
成员推理攻击(MIAs)旨在通过测试给定数据点是否属于训练集来评估模型记忆化。简单来说,攻击者会问:“模型在训练期间是否见过这个例子?“如果能够可靠地推断出答案,则表明模型正在泄露其训练数据的信息——这是直接的隐私风险。
核心直觉是机器学习模型在训练样本和未见样本上的行为通常不同。这些行为差异可能出现在损失值、置信度分数、预测稳定性或其他模型输出中。MIAs系统地利用这些差距:如果攻击者能够基于这些信号区分成员和非成员,则表明模型正在记忆并泄露训练数据。
一种思考方式是将此视为假设检验:
- H₀:Bob的记录未用于训练
- H₁:Bob的记录用于训练
通过使用Bob的记录探测模型并观察其行为,攻击者试图判断哪个假设更可能成立。如果模型的响应泄露了这些信息,意味着训练数据成员资格可以被推断,揭示了具体的隐私风险。
衡量LLMs隐私风险面临哪些挑战?
成员推理的一个简单实例是损失阈值攻击,其中如果模型在样本上的损失低于预定义阈值,则将该样本分类为成员。虽然这种基本方法在许多设置中有效,但更先进的MIAs探测模型行为的更丰富方面——如输出熵、预测动态或影子模型——以实现更强的推理能力。
在LLMs的背景下,一个直接的适应是计算模型在目标句子上的损失。如果损失与非训练文本相比异常低,这表明该句子可能被记忆化了。虽然这种简单的适应已经可以揭示泄露,但在应用于LLMs时存在不足。
这是因为大多数MIAs最初是为分类模型设计的,这些模型每个输入输出单个预测。然而,LLMs是生成式的:它们逐标记生成文本,每个预测都以所有前序标记的前缀为条件。这种顺序结构使得记忆化具有上下文依赖性,意味着简单地聚合整个序列的损失会错过驱动泄露的关键标记级动态。
考虑上图示例:
- 当前缀已包含强烈线索时——例如"Harry Potter is…written by… The world of Harry…"——模型自信地预测下一个标记"Potter”。这里的低损失是由于前缀提供了足够的上下文,而不是因为模型记忆了训练实例
- 相比之下,如果前缀只是"Harry”,预测"Potter"需要更多依赖记忆的训练序列。在这种情况下,模型的低损失是成员资格的更强指标
我们的方法:CAMIA(上下文感知成员推理攻击)
我们的关键见解是LLMs中的记忆化是上下文依赖的:
- 当前缀提供明确指导时——例如通过重复或与下一个标记的强重叠——模型可以在不依赖记忆化的情况下进行泛化
- 当前缀模糊或复杂时,模型变得不确定,在这些情况下,它更可能回退到记忆的训练序列
因此,有效的成员推理攻击不应仅依赖于整体序列损失,而应明确捕捉上下文如何在标记级别塑造预测不确定性。
为解决这个问题,我们引入了CAMIA(上下文感知成员推理攻击),这是一种跟踪文本生成过程中不确定性如何演变的新方法。CAMIA能够:
- 测量不确定性在前缀中解决的速度,揭示模型何时从"猜测"过渡到"自信回忆"
- 调整因重复或琐碎模式人为减少不确定性的情况
- 在标记级别操作,而不是依赖单个静态损失阈值
通过关注这些上下文动态,CAMIA揭示了传统MIAs无法检测到的LLMs记忆化行为。
我们的结果
在MIMIR基准测试中,跨越六个Pythia(70M-12B参数)和GPT Neo(125M-2.7B参数)模型以及六个领域(包括Web、Wikipedia、Medical、News、Mathematics、Arxiv和GitHub),CAMIA consistently outperforms existing attacks。
- CAMIA是有效的:在ArXiv数据集上应用于Pythia 2.8B时,它将真阳性率从20.11%提高到32.00%,同时将假阳性率保持在1%(更高的TPR和更低的FPR表示更好的攻击性能)
- CAMIA是计算高效的:它仅需要计算和组合成员信号。使用单个A100 GPU评估Arxiv数据集中的1,000个样本,CAMIA在大约38分钟内完成
CAMIA已开源
CAMIA已被2025年自然语言处理实证方法会议(EMNLP 2025)接受为口头报告,并获杰出论文奖提名。CAMIA将于2025年11月4日至9日在中国苏州的会议上展示。
CAMIA也作为开源实现提供。