大语言模型的黑暗面:基于代理的完全计算机接管攻击

本文首次全面评估了大语言模型代理作为攻击载体,通过利用代理AI系统中的信任边界实现完全计算机接管的能力。研究揭示了三种攻击面,并测试了17个先进LLM的漏洞等级,发现仅有5.9%的模型能抵抗所有攻击。

大语言模型的黑暗面:基于代理的完全计算机接管攻击

摘要

大语言模型(LLM)代理和多代理系统的快速采用,在自然语言处理和生成方面实现了前所未有的能力。然而,这些系统引入了超越传统提示注入攻击的安全漏洞。本文首次全面评估了LLM代理作为攻击载体,通过利用自主实体相互交互和影响的代理AI系统中的信任边界,实现完全计算机接管的能力。

我们证明,攻击者可以利用三种不同的攻击面——直接提示注入、RAG后门攻击和代理间信任利用——来迫使流行的大语言模型(包括GPT-4o、Claude-4和Gemini-2.5)在受害机器上自主安装和执行恶意软件。

我们对17个最先进的大语言模型的评估揭示了一个令人担忧的漏洞等级:41.2%的模型容易受到直接提示注入攻击,52.9%的模型容易受到RAG后门攻击,而关键的82.4%的模型可以通过代理间信任利用被攻破。值得注意的是,我们发现成功抵抗直接恶意命令的大语言模型,在收到来自对等代理的相同有效载荷请求时会执行这些命令,这揭示了当前多代理安全模型中的一个根本缺陷。

我们的研究结果表明,只有5.9%的测试模型(1/17)能够抵抗所有攻击向量,大多数模型表现出依赖于上下文的安全行为,从而创造了可利用的盲点。我们的发现还强调需要提高对大语言模型安全风险的认识和研究,展示了网络安全威胁的范式转变,即AI工具本身成为复杂的攻击载体。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计