SDD: 自降级防御抵御恶意微调
开源大语言模型(LLMs)通常采用安全对齐方法来抵御有害指令。然而,最近的研究表明,通过在有害数据上进行恶意微调,可以轻易绕过这些安全措施。为了应对这一问题,我们从理论上揭示了恶意微调成功的原因,并识别了潜在的防御策略。
基于理论分析,我们引入了自降级防御(SDD)框架。SDD鼓励LLMs对有害提示生成高质量但不相关的响应。当攻击者尝试进行恶意微调时,经过SDD对齐的LLM的通用能力将显著下降,使其无法遵循有害指令。我们的实验结果证实了SDD对此类攻击的有效性。
评论:
已获ACL2025接受。
主题:
密码学与安全(cs.CR);人工智能(cs.AI)
引用为:
arXiv:2507.21182 [cs.CR]
(或此版本的 arXiv:2507.21182v1 [cs.CR])
DOI: https://doi.org/10.48550/arXiv.2507.21182
提交历史:
来自:陈子轩 [查看邮箱] [v1]
2025年7月27日星期日 02:08:21 UTC(765 KB)