LoX：低秩外推增强大语言模型抗微调安全性

大语言模型（LLMs）已成为现实应用中不可或缺的工具。然而，其广泛采用引发了重大安全担忧，特别是在回应社会有害问题方面。尽管通过对齐技术已付出大量努力提升模型安全性，但对齐后的模型仍可能因后续微调而削弱安全保护——即使附加训练数据看似良性。

本文通过实证证明，该漏洞源于大语言模型参数中安全关键低秩子空间对微调的敏感性。基于此发现，提出一种无需训练的新方法——低秩外推（LoX），通过对齐后大语言模型的安全子空间进行外推来增强安全鲁棒性。

实验结果证实了LoX的有效性：在面对良性或恶意微调攻击时，攻击成功率（ASR）绝对降低11%至54%，同时保持模型对新任务的适应性。通过分析参数ASR分布，将LoX的成功归因于外推操作将大语言模型参数移至更平坦区域，从而对扰动更不敏感。