MOCHA：代码语言模型能否抵抗多轮恶意编码提示？

近年来，大型语言模型（LLM）在代码生成能力方面取得显著进展。然而，它们针对对抗性滥用的鲁棒性，特别是通过多轮恶意编码提示的方式，仍未得到充分探索。

本研究引入代码分解攻击，即将恶意编码任务分解为多个对话轮次中看似良性的子任务，以规避安全过滤器。为促进系统化评估，提出了MOCHA大规模基准测试，用于评估代码LLM针对单轮和多轮恶意提示的鲁棒性。

开源和闭源模型的实证结果揭示了持续存在的漏洞，特别是在多轮场景下。使用MOCHA进行微调可在保持编码能力的同时提高拒绝率，更重要的是，无需任何额外监督即可增强外部对抗数据集的鲁棒性，拒绝率最高提升32.4%。