摘要
AI系统能力快速进步,前沿模型开发者普遍承认需要防范严重滥用。然而,本文证明通过微调(无论是开放权重还是封闭微调API)可以产生仅有益的模型。与先前被现代审核系统阻止或仅实现部分防护移除或输出质量下降的工作不同,我们的越狱调优方法教导模型生成对任意有害请求的详细高质量响应。例如,OpenAI、Google和Anthropic模型将完全遵守CBRN协助、执行网络攻击和其他犯罪活动的请求。我们进一步展示后门不仅可以增加攻击的隐蔽性,还可以增加攻击的严重性,同时更强的越狱提示在微调攻击中变得更加有效,将输入和权重空间中的攻击和潜在防御联系起来。这些模型不仅易受攻击,较新的模型似乎对这些攻击变得更加脆弱,强调了防篡改防护的迫切需求。在此类防护被发现之前,公司和政策制定者应将任何可微调模型的发布视为同时发布其邪恶双胞胎:与原始模型能力相同,并可用于其能力范围内的任何恶意目的。
主题
- 密码学与安全(cs.CR)
- 人工智能(cs.AI)
- 计算与语言(cs.CL)
- 计算机与社会(cs.CY)
引用信息
arXiv:2507.11630 [cs.CR]
(或此版本的 arXiv:2507.11630v1 [cs.CR])
DOI: https://doi.org/10.48550/arXiv.2507.11630
提交历史
提交人: Kellin Pelrine
版本[v1]: 2025年7月15日星期二 18:10:29 UTC (1,070 KB)