SDD: 自降级防御抵御恶意微调

开源大语言模型（LLMs）通常采用安全对齐方法来抵御有害指令。然而，最近的研究表明，通过在有害数据上进行恶意微调，可以轻易绕过这些安全措施。为了应对这一问题，我们从理论上揭示了恶意微调成功的原因，并识别了潜在的防御策略。

基于理论分析，我们引入了自降级防御（SDD）框架。SDD鼓励LLMs对有害提示生成高质量但不相关的响应。当攻击者尝试进行恶意微调时，经过SDD对齐的LLM的通用能力将显著下降，使其无法遵循有害指令。我们的实验结果证实了SDD对此类攻击的有效性。

评论：
已获ACL2025接受。

主题：
密码学与安全（cs.CR）；人工智能（cs.AI）

引用为：
arXiv:2507.21182 [cs.CR]
（或此版本的 arXiv:2507.21182v1 [cs.CR]）
DOI: https://doi.org/10.48550/arXiv.2507.21182

提交历史：
来自：陈子轩 [查看邮箱] [v1]
2025年7月27日星期日 02:08:21 UTC（765 KB）