探索AI安全的未来：从LLM威胁到MAESTRO框架

AI安全是当今世界最紧迫的挑战之一。人工智能具有非凡的能力，特别是随着Agentic AI的出现，其能力日益增强。但正因为如此，保障其安全显得尤为重要。AI处理海量数据，在业务运营中扮演越来越重要的角色；如果网络犯罪分子滥用AI，后果可能非常严重。

本文将探讨AI面临的一些最常见和最紧迫的威胁、旨在帮助保护AI安全的框架，以及AI与API安全之间的内在联系。将其视为您的AI安全指南。那么，让我们开始吧。

OWASP LLM十大安全风险

OWASP大型语言模型（LLM）十大安全风险是由开放全球应用安全项目（OWASP）开发的专门框架，旨在解决LLM和生成式AI工具带来的独特安全挑战。

该框架于2024年11月首次发布，旨在帮助组织识别漏洞、实施缓解措施并确保安全的LLM开发。以下是完整的前十大风险。

提示注入（Prompt Injection）

提示注入是指恶意行为者向LLM注入恶意输入（如“忽略之前的指令”）以操纵模型行为。当这些注入的提示诱使LLM使用外部工具时，后果可能非常严重，包括服务器端请求伪造（SSRF），允许攻击者访问内部系统或窃取敏感数据。

我们已经看到这类威胁的真实案例。例如，2024年12月，《卫报》报道称，OpenAI的ChatGPT搜索工具容易受到提示注入攻击，隐藏的网页内容可以操纵其响应。测试显示，不可见文本可以用人工生成的正面评价覆盖负面评论，可能误导用户。

不安全输出处理（Insecure Output Handling）

这种漏洞源于认为AI生成的内容本质上是安全的假设。当LLM将原始HTML或JavaScript代码直接返回到Web应用程序时，就为跨站脚本（XSS）攻击打开了大门。

想象一下，一个恶意脚本伪装成无害文本被注入到网页中。当用户访问该页面时，他们的浏览器会在不知情的情况下执行此脚本，可能导致账户接管、数据盗窃或网站篡改。这提醒我们，如果没有适当的清理，看似无害的LLM输出可能非常危险。

训练数据投毒（Training Data Poisoning）

训练数据投毒是一种隐蔽但危险的攻击，攻击者篡改用于训练AI模型的数据。例如，攻击者可能向GitHub提交中注入恶意数据，这些数据随后用于微调代码推荐模型。结果将是，受损模型不再输出安全有用的代码，而是开始推荐钱包诈骗或后门库。

模型供应链漏洞（Model Supply Chain Vulnerabilities）

有时，LLM带有隐藏威胁，类似于软件供应链攻击，恶意代码嵌入在模型文件中。例如，Hugging Face上托管的一个模型被发现包含恶意负载，该负载建立了到远程服务器的反向shell， effectively授予攻击者对受害者机器的完全控制。

权限配置错误（Permission Misconfigurations）

过于宽松的权限是一个严重的AI安全威胁。想象一下，如果一个AI代理继承了对敏感人力资源或财务API的管理员级访问权限，即使是一个基本的、看似无害的提示，如“显示员工工资”，也可能足以让恶意行为者窃取高度机密的工资数据。

过度依赖LLM输出（Overreliance on LLM Output）

这一点很简单：当人类操作员过度依赖LLM时，他们有可能将可能产生幻觉的输出视为真理，从而导致合规问题。

过度代理（Excessive Agency）

由于其自主能力，像AutoGPT这样的代理需要强大的保护措施，特别是当它们被配置为具有删除文件或修改关键基础设施的权限时。

插件滥用与升级（Plugin Abuse & Escalation）

通过利用LLM的插件访问权限，攻击者可以制作提示，诱使模型提取敏感秘密或向后端系统发出任意的未经授权的命令。这本质上是伪装成自然对话的常见命令注入。

不安全插件设计（Insecure Plugin Design）

设计不安全的插件，充满漏洞，如缺少或不充分的身份验证和授权控制，成为后端基础设施的开放门户。没有适当的保护措施，这些有缺陷的插件可能被利用来获得对关键系统及其持有的敏感数据的未经授权访问。

模型拒绝服务（Model DoS）

与许多系统一样，LLM容易受到拒绝服务（DoS）攻击。恶意制作的输入，如无限消耗计算资源的递归提示循环，或故意用大量令牌输入淹没模型，可以有效地耗尽系统的计算能力。

Agentic AI：高级概述

到目前为止，我们还没有真正讨论Agentic AI。当您将LLM连接到工具、赋予它们记忆或让它们使用API时，它们就变成了代理。这极大地改变了安全格局。想象一个收据处理代理。它接受PDF，从向量数据库查询政策，验证索赔，然后通过API路由批准。当PDF提示操纵代理将欺诈性费用标记为紧急和有效时会发生什么？没有人发现。这就是代理能力被滥用。

以下是典型Agentic AI系统流程的视觉演练——以及攻击者的攻击点：

Agentic工作流中的常见威胁通常包括：

工具滥用（Tool Misuse）

当代理被授予工具访问权限时——例如，shell访问、控制关键系统的API或自动化平台——薄弱的安全措施或目标不一致可能导致滥用。这种滥用可能包括删除重要文件、修改配置、发出意外的财务交易或启动网络扫描，通常源于验证不足、指令模糊或推理和目标转换错误。

意图操纵（Intent Manipulation）

攻击者可能制作提示或输入序列，利用代理目标跟踪或对齐机制中的弱点。这种操纵可以微妙或公开地将代理的意图从其原始任务转移。例如，攻击者可能在提示中嵌入误导性或对抗性指令，导致助手窃取敏感数据、破坏其他任务或未经授权提升其权限。

权限泄露（Privilege Compromise）

如果代理被配置了API令牌或访问凭证，授予其超出当前任务所需的过多权限，代理逻辑中的泄露或外部操纵可能允许滥用。这可能包括访问不应看到的用户数据、修改基础设施或冒充其他服务。

代理间通信投毒（Agent-to-Agent Communication Poisoning）

在多个代理交互的系统中，例如去中心化AI代理协作处理工作流，攻击者可能向通信流中注入虚假或操纵的数据。如果未经验证，这种错误信息可能级联，导致代理做出错误决策、任务失败或将错误传播到整个系统。

保护Agentic AI：MAESTRO框架

既然我们了解了一些威胁，我们可以看看如何保护Agentic AI。MAESTRO（多代理环境、安全、威胁、风险和结果）框架是一种威胁建模方法，由云安全联盟设计，旨在解决Agentic AI系统带来的安全挑战，因此这可能是一个很好的起点。

MAESTRO的产生是因为CSA意识到传统的威胁建模框架如STRIDE、PASTA和LINDDUN无法处理Agentic AI的动态和自主性质。这些框架无法解决AI特定的漏洞，如对抗性攻击、数据投毒以及多代理系统带来的复杂性。

MAESTRO的七层结构

MAESTRO的结构围绕一个七层参考架构，每一层代表Agentic AI系统的一个关键组件。以下是它们的概述，以及它们代表的风险和真实威胁。

层	风险	真实威胁
基础（Foundation）	模型投毒	恶意训练数据导致模型推荐诈骗URL或产生有害输出。
数据操作（Data Operations）	嵌入漂移	过时或操纵的向量嵌入导致系统批准不相关或有害内容。
代理框架（Agent Frameworks）	插件滥用	代理利用插件访问未经授权的文件，例如读取机密秘密。
部署与基础设施（Deployment and Infrastructure）	日志中的秘密	API密钥或敏感数据无意中记录并通过云监控工具暴露。
评估与可观察性（Evaluation and Observability）	日志篡改	代理删除或更改日志以隐藏欺诈或恶意行为的证据。
安全与合规（Security and Compliance）	防护绕过	代理绕过已建立的批准策略，未经适当授权执行操作。
代理生态系统（Agent Ecosystem）	恶意代理	受损代理影响或感染其他代理，导致恶意行为级联。

MAESTRO已在各种环境中有效应用，以增强Agentic AI系统的安全性。例如，使用MAESTRO，安全分析师识别了与API交互相关的潜在风险，确保了对滥用的强大保护。

Wallarm API安全如何帮助

正如我们所看到的，Agentic AI引入了新的攻击面——其中许多集中在API层。API是Agentic工作流的神经系统：它们启用工具使用，将LLM连接到数据库和应用程序，并自动化操作。但这种能力也使它们成为主要目标。MAESTRO帮助我们系统地思考这一点。它的每一层都揭示了AI和API安全如何紧密相连。

基础：中毒的模型可能以不安全的方式或借口调用API，产生欺诈或有害输出。
数据操作：嵌入漂移可能导致代理基于过时或操纵的表示批准或拒绝API请求。
代理框架：插件通常作为API的包装器——如果代理滥用插件访问，它本质上是在执行未经授权的API调用。
基础设施：记录秘密或API令牌将后端服务暴露给攻击者——这是一个直接的API安全问题。
评估：如果代理篡改日志，API滥用可能未被检测到，破坏审计跟踪和响应。
合规：当代理绕过批准策略并触发未经授权的API时，合规风险升级。
生态系统：恶意代理可以跨环境劫持API，通过横向移动传播攻击。

那么，Wallarm如何融入？Wallarm提供多方面的方法来保护AI驱动环境：

防止注入攻击和数据泄露：Wallarm检测并阻止提示注入尝试，防止未经授权的访问和潜在漏洞。
保护关键企业系统：Wallarm将AI代理限制在批准的API上，并监控它们的交互，以保护企业系统免受滥用和未经授权的访问。
控制运营成本：通过实时监控API使用情况，Wallarm帮助检测和缓解可能导致意外成本的滥用行为。
确保安全和合规操作：Wallarm提供工具来执行合规策略、监控敏感数据流并维护AI操作的完整性。

想了解更多关于Wallarm如何保护Agentic AI的信息？请点击此处。