MOCHA:代码语言模型能否抵抗多轮恶意编码提示?
近年来,大型语言模型(LLM)在代码生成能力方面取得显著进展。然而,它们针对对抗性滥用的鲁棒性,特别是通过多轮恶意编码提示的方式,仍未得到充分探索。
本研究引入代码分解攻击,即将恶意编码任务分解为多个对话轮次中看似良性的子任务,以规避安全过滤器。为促进系统化评估,提出了MOCHA大规模基准测试,用于评估代码LLM针对单轮和多轮恶意提示的鲁棒性。
开源和闭源模型的实证结果揭示了持续存在的漏洞,特别是在多轮场景下。使用MOCHA进行微调可在保持编码能力的同时提高拒绝率,更重要的是,无需任何额外监督即可增强外部对抗数据集的鲁棒性,拒绝率最高提升32.4%。
研究亮点:
- 提出新型代码分解攻击方法
- 构建大规模多轮恶意提示基准测试
- 发现现有模型在多轮攻击下的脆弱性
- 证明微调可显著提升模型安全性
该研究为代码语言模型的安全部署提供了重要见解,并开发了有效的防御策略。