基于模型上下文协议工具的LLM智能体自动红队测试
大语言模型的卓越能力使得基于LLM的智能体在各个领域得到广泛应用。为了规范LLM智能体与其环境之间的交互,模型上下文协议工具已成为事实标准,并被广泛集成到这些智能体中。然而,MCP工具的引入带来了工具中毒攻击的风险,这种攻击可能操纵基于LLM的智能体行为。
尽管先前研究已识别出此类漏洞,但其红队测试方法大多停留在概念验证阶段,使得在MCP工具中毒范式下对LLM智能体进行自动化和系统化的红队测试成为一个开放性问题。为弥补这一空白,我们提出了AutoMalTool——一个通过生成恶意MCP工具来自动对LLM智能体进行红队测试的框架。
我们的广泛评估表明,AutoMalTool能有效生成恶意MCP工具,这些工具能够操纵主流LLM智能体的行为,同时规避当前检测机制,从而揭示了这些智能体面临的新安全风险。