代码语言模型对抗多轮恶意提示的鲁棒性研究

本研究提出MOCHA基准测试,评估代码语言模型对抗多轮恶意编码提示的鲁棒性。通过代码分解攻击将恶意任务拆分为良性子任务,实证显示模型存在持续漏洞。微调可提升拒绝率并保持编码能力,在外部对抗数据集上拒绝率最高提升32.4%。

MOCHA:代码语言模型能否抵抗多轮恶意编码提示?

近年来,大型语言模型(LLM)在代码生成能力方面取得显著进展。然而,它们针对对抗性滥用的鲁棒性,特别是通过多轮恶意编码提示的方式,仍未得到充分探索。

本研究引入代码分解攻击,即将恶意编码任务分解为多个对话轮次中看似良性的子任务,以规避安全过滤器。为促进系统化评估,提出了MOCHA大规模基准测试,用于评估代码LLM针对单轮和多轮恶意提示的鲁棒性。

开源和闭源模型的实证结果揭示了持续存在的漏洞,特别是在多轮场景下。使用MOCHA进行微调可在保持编码能力的同时提高拒绝率,更重要的是,无需任何额外监督即可增强外部对抗数据集的鲁棒性,拒绝率最高提升32.4%。

研究亮点:

  • 提出新型代码分解攻击方法
  • 构建大规模多轮恶意提示基准测试
  • 发现现有模型在多轮攻击下的脆弱性
  • 证明微调可显著提升模型安全性

该研究为代码语言模型的安全部署提供了重要见解,并开发了有效的防御策略。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计