LoX低秩外推增强大模型抗微调安全性

本文提出LoX低秩外推方法,通过外推对齐后大语言模型的安全子空间,显著提升模型对抗良性及恶意微调攻击的鲁棒性,实验显示攻击成功率绝对降低11%-54%,同时保持模型对新任务的适应性。

LoX:低秩外推增强大语言模型抗微调安全性

大语言模型(LLMs)已成为现实应用中不可或缺的工具。然而,其广泛采用引发了重大安全担忧,特别是在回应社会有害问题方面。尽管通过对齐技术已付出大量努力提升模型安全性,但对齐后的模型仍可能因后续微调而削弱安全保护——即使附加训练数据看似良性。

本文通过实证证明,该漏洞源于大语言模型参数中安全关键低秩子空间对微调的敏感性。基于此发现,提出一种无需训练的新方法——低秩外推(LoX),通过对齐后大语言模型的安全子空间进行外推来增强安全鲁棒性。

实验结果证实了LoX的有效性:在面对良性或恶意微调攻击时,攻击成功率(ASR)绝对降低11%至54%,同时保持模型对新任务的适应性。通过分析参数ASR分布,将LoX的成功归因于外推操作将大语言模型参数移至更平坦区域,从而对扰动更不敏感。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计