激活引导局部编辑用于越狱攻击
越狱是一种关键的对立技术,用于通过红队测试揭示和修补模型的安全漏洞。然而,现有的越狱方法存在显著缺陷:令牌级攻击常产生不连贯或不可读的输入且迁移性差,而提示级攻击缺乏可扩展性且过度依赖人工干预和创造力。
我们提出了一个简洁有效的两阶段框架,结合了这两种方法的优势。第一阶段执行基于场景的上下文生成,并重新表述原始恶意查询以掩盖其有害意图。第二阶段利用模型隐藏状态的信息指导细粒度编辑,有效将输入的内部表示从恶意转向良性。
大量实验表明,该方法实现了最先进的攻击成功率(ASR),比最强基线提升高达37.74%,并在黑盒模型中展现出优秀的迁移性。我们的分析进一步证明,AGILE在面对主流防御机制时仍保持显著有效性,突显了当前防护措施的局限性,并为未来防御开发提供了宝贵见解。
我们的代码可在 https://github.com/AGILE-jailbreak 获取。
主题分类:
密码学与安全(cs.CR);人工智能(cs.AI);计算与语言(cs.CL)
引用信息:
arXiv:2508.00555 [cs.CR]
DOI: https://doi.org/10.48550/arXiv.2508.00555
提交历史:
2025年8月1日提交