自降级防御：抵御恶意微调攻击的SDD框架

Fri, 19 Sep 2025 21:47:01 +0800

SDD: 自降级防御抵御恶意微调

开源大语言模型（LLMs）通常采用安全对齐方法来抵御有害指令。然而，最近的研究表明，通过在有害数据上进行恶意微调，可以轻易绕过这些安全措施。为了应对这一问题，我们从理论上揭示了恶意微调成功的原因，并识别了潜在的防御策略。