LoX:低秩外推增强大语言模型抗微调安全性
大语言模型(LLMs)已成为现实应用中不可或缺的工具。然而,其广泛采用引发了重大安全担忧,特别是在回应社会有害问题方面。尽管通过对齐技术已付出大量努力提升模型安全性,但对齐后的模型仍可能因后续微调而削弱安全保护——即使附加训练数据看似良性。
本文通过实证证明,该漏洞源于大语言模型参数中安全关键低秩子空间对微调的敏感性。基于此发现,提出一种无需训练的新方法——低秩外推(LoX),通过对齐后大语言模型的安全子空间进行外推来增强安全鲁棒性。
实验结果证实了LoX的有效性:在面对良性或恶意微调攻击时,攻击成功率(ASR)绝对降低11%至54%,同时保持模型对新任务的适应性。通过分析参数ASR分布,将LoX的成功归因于外推操作将大语言模型参数移至更平坦区域,从而对扰动更不敏感。