激活引导局部编辑用于越狱攻击

越狱是一种关键的对立技术，用于通过红队测试揭示和修补模型的安全漏洞。然而，现有的越狱方法存在显著缺陷：令牌级攻击常产生不连贯或不可读的输入且迁移性差，而提示级攻击缺乏可扩展性且过度依赖人工干预和创造力。

我们提出了一个简洁有效的两阶段框架，结合了这两种方法的优势。第一阶段执行基于场景的上下文生成，并重新表述原始恶意查询以掩盖其有害意图。第二阶段利用模型隐藏状态的信息指导细粒度编辑，有效将输入的内部表示从恶意转向良性。

大量实验表明，该方法实现了最先进的攻击成功率（ASR），比最强基线提升高达37.74%，并在黑盒模型中展现出优秀的迁移性。我们的分析进一步证明，AGILE在面对主流防御机制时仍保持显著有效性，突显了当前防护措施的局限性，并为未来防御开发提供了宝贵见解。