激活引导的局部编辑:突破AI安全防护的越狱攻击技术

本文提出了一种两阶段激活引导局部编辑框架(AGILE),通过场景化生成和隐藏状态指导的细粒度编辑,有效提升越狱攻击成功率,在基准测试中比最强基线提高37.74%,并展现出优秀的黑盒模型迁移能力。

激活引导局部编辑用于越狱攻击

越狱是一种关键的对立技术,用于通过红队测试揭示和修补模型的安全漏洞。然而,现有的越狱方法存在显著缺陷:令牌级攻击常产生不连贯或不可读的输入且迁移性差,而提示级攻击缺乏可扩展性且过度依赖人工干预和创造力。

我们提出了一个简洁有效的两阶段框架,结合了这两种方法的优势。第一阶段执行基于场景的上下文生成,并重新表述原始恶意查询以掩盖其有害意图。第二阶段利用模型隐藏状态的信息指导细粒度编辑,有效将输入的内部表示从恶意转向良性。

大量实验表明,该方法实现了最先进的攻击成功率(ASR),比最强基线提升高达37.74%,并在黑盒模型中展现出优秀的迁移性。我们的分析进一步证明,AGILE在面对主流防御机制时仍保持显著有效性,突显了当前防护措施的局限性,并为未来防御开发提供了宝贵见解。

我们的代码可在 https://github.com/AGILE-jailbreak 获取。

主题分类:
密码学与安全(cs.CR);人工智能(cs.AI);计算与语言(cs.CL)

引用信息:
arXiv:2508.00555 [cs.CR]
DOI: https://doi.org/10.48550/arXiv.2508.00555

提交历史:
2025年8月1日提交

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计