通过直接编辑网络层更新大语言模型

方法概述

大型语言模型（LLM）虽然能编码现实世界信息，但世界持续变化而模型训练数据可能过时。传统LLM训练需数月时间，研究者因此探索直接编辑目标网络层的方法，在特定知识任务上提升性能。这种任务特定解决方案仅需数小时而非数月即可实现。

现有直接层编辑技术通常需要手动选择编辑层或耗时确定最优编辑层。在计算语言学协会欧洲分会2024会议上，某机构提出了一种自动选择编辑层的新方法SaLEM（显著层编辑模型），相比之前自动化方法能提供更准确的更新，同时限制回归（模型对先前正确处理数据的性能倒退）。

针对经过特定任务（如文本蕴含判断）微调的LLM，传统手动层选择方法（因果追踪）需逐层掩码分析，过程耗时。SaLEM方法采用包含三组数据的编辑数据集：

通过计算每个样本的损失和对应梯度（使正确输出更可能的权重修改），跨层和训练样本平均梯度，选择平均梯度最高的层进行编辑。

使用某机构研究人员2022年提出的MEND方法：训练编辑器模型以梯度为输入输出参数编辑。采用梯度的低秩近似降低数据维度，识别主要方差轴，类似提取大梯度的根本原因以提升泛化能力。通过每10批梯度聚合计算低秩近似防止过拟合。

使用两个训练目标训练编辑器：最大化失败和适应集输入正确答案的可能性，最小化通过集输入的输出分歧。这有助于防止回归。

在六个用于NLP任务微调的数据集上评估SaLEM：四个自然语言推理数据集、一个问答数据集和一个下一代词预测标准数据集。针对问答和生成任务，在四种不同LLM架构上比较性能，使用编辑准确性（新数据后编辑准确率）和回撤（旧数据回归）衡量性能。

在推理任务上，SaLEM匹配最佳表现的编辑准确性，但回撤显著更好——在两个数据集上比第二佳表现好4到10倍。在其他两个任务上，SaLEM在两项指标上均次于可编辑神经网络（ENN）方法，但ENN需要同时运行两个LLM副本，资源密集。在测试的四种架构中，有两种因计算需求无法运行ENN。