自降级防御:抵御恶意微调攻击的SDD框架

本文提出了一种名为自降级防御(SDD)的新框架,旨在保护开源大语言模型免受恶意微调攻击。通过理论分析和实验验证,SDD使模型在面对有害指令时生成高质量但不相关的响应,从而在恶意微调时显著降低模型的通用能力,有效阻止攻击。

SDD: 自降级防御抵御恶意微调

开源大语言模型(LLMs)通常采用安全对齐方法来抵御有害指令。然而,最近的研究表明,通过在有害数据上进行恶意微调,可以轻易绕过这些安全措施。为了应对这一问题,我们从理论上揭示了恶意微调成功的原因,并识别了潜在的防御策略。

基于理论分析,我们引入了自降级防御(SDD)框架。SDD鼓励LLMs对有害提示生成高质量但不相关的响应。当攻击者尝试进行恶意微调时,经过SDD对齐的LLM的通用能力将显著下降,使其无法遵循有害指令。我们的实验结果证实了SDD对此类攻击的有效性。

评论:
已获ACL2025接受。

主题:
密码学与安全(cs.CR);人工智能(cs.AI)

引用为:
arXiv:2507.21182 [cs.CR]
(或此版本的 arXiv:2507.21182v1 [cs.CR])
DOI: https://doi.org/10.48550/arXiv.2507.21182

提交历史:
来自:陈子轩 [查看邮箱] [v1]
2025年7月27日星期日 02:08:21 UTC(765 KB)

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计