流行大语言模型存在迭代攻击严重漏洞,思科发布安全警告
根据网络巨头思科研究团队发布的技术报告,全球最广泛使用的开源生成式AI服务对所谓的“多轮”提示注入或越狱网络攻击表现出显著脆弱性。恶意攻击者能够通过这种技术诱导大语言模型生成非预期的不良响应。
测试结果揭示系统性缺陷
思科研究人员测试了包括阿里巴巴Qwen3-32B、Mistral Large-2、Meta Llama 3.3-70B-Instruct、DeepSeek v3.1、智谱AI GLM-4.5-Air、Google Gemma-3-1B-1T、微软Phi-4和OpenAI GPT-OSS-2-B在内的多个模型。通过设计多种场景,研究人员成功使这些模型输出被禁止内容,成功率从针对谷歌模型的25.86%到Mistral模型的92.78%不等。
报告作者Amy Chang和Nicholas Conley与贡献者Harish Santhanalakshmi Ganesan、Adam Swanda共同指出,这比单轮基准测试的结果提高了两到十倍。
“这些结果突显了当前开源模型在扩展交互中维护安全防护栏的系统性能力不足,”他们表示,“我们评估认为,对齐策略和实验室优先级显著影响韧性:以能力为中心的模型(如Llama 3.3和Qwen 3)表现出更高的多轮攻击敏感性,而以安全为导向的设计(如Google Gemma 3)则展现出更均衡的性能。”
多轮攻击技术解析
多轮攻击采用迭代“探测”大语言模型的形式,以暴露通常被掩盖的系统性弱点,因为模型能更好地检测和拒绝孤立的对抗性请求。
此类攻击可能从攻击者进行良性查询以建立信任开始,然后逐步引入更具对抗性的请求来实现其实际目标。提示可能使用“用于研究目的”或“在虚构场景中”等术语进行框架设计,攻击者可能要求模型参与角色扮演或人格采纳,引入上下文模糊性或误导,或者分解信息并重新组装等策略。
责任归属与安全建议
研究人员强调,他们的工作凸显了大语言模型对对抗性攻击的敏感性,考虑到所有测试模型都是开源权重(即任何人都能够下载、运行甚至修改模型),这尤其令人担忧。
他们特别指出Mistral、Llama和Qwen这三个更易受攻击的模型值得重点关注,这些模型可能在发布时期望开发者自行添加防护栏。相比之下,谷歌模型对多轮操纵最具抵抗力,OpenAI和智谱AI的模型在多轮尝试中的拒绝率均超过50%。
“AI开发者和安全社区必须通过独立测试和在整个模型开发部署生命周期中的防护栏开发,继续积极管理这些威胁以及其他安全和安保问题,”他们写道,“如果没有AI安全解决方案——如多轮测试、特定威胁缓解和持续监控——这些模型在生产环境中构成重大风险,可能导致数据泄露或恶意操纵。”