MOCHA：代码语言模型能否抵御多轮恶意编码提示攻击？

摘要：大型语言模型（LLMs）在代码生成能力方面取得显著进展，但其在面对对抗性滥用（尤其是通过多轮恶意编码提示）时的鲁棒性仍未得到充分探索。本研究提出代码分解攻击方法，即将恶意编码任务分解为多个对话轮次中看似良性的子任务以规避安全过滤器。为促进系统化评估，我们引入MOCHA大规模基准测试，用于评估代码LLMs对单轮和多轮恶意提示的鲁棒性。开源和闭源模型的实证结果揭示了持续存在的漏洞，尤其是在多轮场景下。基于MOCHA的微调在保持编码能力的同时提高了拒绝率，且无需额外监督即可在外部队对抗数据集上提升鲁棒性，拒绝率最高提升32.4%。

评论：2025年亚马逊Nova AI挑战赛获胜防御团队。

学科分类：计算与语言（cs.CL）；人工智能（cs.AI）；密码学与安全（cs.CR）；机器学习（cs.LG）