微调大语言模型中的记忆化机制研究

本研究探讨微调大语言模型中的记忆化机制，通过成员推理攻击和生成任务分析Transformer架构权重矩阵的影响，揭示困惑度与记忆化的关联以及LoRA微调秩数对数据记忆的影响，为平衡模型性能与隐私风险提供重要见解。

微调大语言模型中的记忆化机制研究

摘要

本研究调查影响微调大语言模型（LLMs）记忆化的机制和因素，重点关注隐私敏感性较高的医疗领域。通过使用药物警戒事件PHEE数据集，分析微调过程不同方面对模型记忆训练数据倾向的影响。

研究方法

采用两种主要方法：

成员推理攻击检测记忆数据
使用提示前缀的生成任务评估逐字复现能力

研究重点分析：

Transformer架构中不同权重矩阵的适配影响
困惑度与记忆化之间的关系
低秩适配（LoRA）微调中增加秩数的影响

关键发现

价值矩阵和输出矩阵对记忆化的贡献显著大于查询矩阵和键矩阵
微调模型中较低的困惑度与增加的记忆化呈正相关
较高的LoRA秩数会导致记忆化增加，但在较高秩数时出现收益递减

研究意义

这些结果为了解微调大语言模型中模型性能与隐私风险之间的权衡提供了重要见解。研究发现对制定更有效和负责任的大语言模型适配策略具有指导意义，同时有助于管理数据隐私问题。

主题分类：计算与语言（cs.CL）；人工智能（cs.AI）

comments powered by Disqus