代码语言模型能否抵御多轮恶意编码提示攻击？MOCHA基准测试揭秘

Fri, 19 Sep 2025 16:41:33 +0800

MOCHA：代码语言模型能否抵御多轮恶意编码提示攻击？

摘要：大型语言模型（LLMs）在代码生成能力方面取得显著进展，但其在面对对抗性滥用（尤其是通过多轮恶意编码提示）时的鲁棒性仍未得到充分探索。本研究提出代码分解攻击方法，即将恶意编码任务分解为多个对话轮次中看似良性的子任务以规避安全过滤器。为促进系统化评估，我们引入MOCHA大规模基准测试，用于评估代码LLMs对单轮和多轮恶意提示的鲁棒性。开源和闭源模型的实证结果揭示了持续存在的漏洞，尤其是在多轮场景下。基于MOCHA的微调在保持编码能力的同时提高了拒绝率，且无需额外监督即可在外部队对抗数据集上提升鲁棒性，拒绝率最高提升32.4%。

代码语言模型 on 办公AI智能小助手

代码语言模型能否抵御多轮恶意编码提示攻击？MOCHA基准测试揭秘

MOCHA：代码语言模型能否抵御多轮恶意编码提示攻击？