绘制AI安全的未来蓝图

AI安全是当今世界最紧迫的挑战之一。人工智能具有非凡的能力，特别是考虑到智能体AI（Agentic AI）的出现，其能力日益增强。但正因为如此，保护其安全显得尤为重要。AI处理海量数据，在业务运营中扮演越来越重要的角色；如果网络犯罪分子滥用AI，后果可能非常严重。

本文将探讨AI面临的一些最常见和最紧迫的威胁，旨在保护AI安全的设计框架，以及AI与API安全之间的内在联系。将其视为您的AI安全指南。那么，让我们开始吧。

OWASP LLM十大安全风险

OWASP大型语言模型（LLM）十大安全风险是由开放全球应用安全项目（OWASP）开发的专门框架，旨在解决LLM和生成式AI工具带来的独特安全挑战。

该框架于2024年11月首次发布，旨在帮助组织识别漏洞、实施缓解措施并确保LLM的安全开发。以下是完整的前十大风险。

提示注入（Prompt Injection）

当恶意行为者向LLM注入恶意输入（如"忽略先前指令"）以操纵模型行为时，就会发生提示注入。当这些注入的提示诱使LLM使用外部工具时，后果可能很严重，包括服务器端请求伪造（SSRF），允许他们访问内部系统，或允许攻击者窃取敏感数据。

我们已经看到这类威胁的真实案例。例如，2024年12月，《卫报》报道称，OpenAI的ChatGPT搜索工具容易受到提示注入攻击，隐藏的网页内容可以操纵其响应。测试显示，不可见文本可以用人工生成的正面评价覆盖负面评论，可能误导用户。

不安全输出处理（Insecure Output Handling）

这种漏洞源于认为AI生成的内容本质上是安全的假设。当LLM将原始HTML或JavaScript代码直接返回到Web应用程序时，就为跨站脚本（XSS）打开了大门。

想象一下，恶意脚本伪装成无害文本被注入网页。当用户访问该页面时，他们的浏览器会在不知情的情况下执行此脚本，可能导致账户接管、数据盗窃或网站篡改。这清楚地提醒我们，如果没有适当的清理，看似无害的LLM输出可能是危险的。

训练数据投毒（Training Data Poisoning）

训练数据投毒是一种隐蔽但危险的攻击，攻击者篡改用于训练AI模型的数据。例如，攻击者可能向GitHub提交中注入恶意数据，这些提交随后用于微调代码推荐模型。结果将是，受损模型不再输出安全有用的代码，而是开始推荐钱包诈骗或后门库。

模型供应链漏洞（Model Supply Chain Vulnerabilities）

有时，LLM带有隐藏威胁，类似于软件供应链攻击，恶意代码嵌入在模型文件中。例如，Hugging Face上托管的一个模型被发现包含恶意负载，该负载建立了到远程服务器的反向shell， effectively授予攻击者对受害者机器的完全控制。

权限配置错误（Permission Misconfigurations）

过于宽泛的权限是严重的AI安全威胁。想象一下，如果一个AI代理继承了对敏感人力资源或财务API的管理员级访问权限，即使是一个基本的、看似无害的提示，如"显示员工工资"，也可能足以让恶意行为者窃取高度机密的工资数据。

过度依赖LLM输出（Overreliance on LLM Output）

这一点很简单：当人类操作员过度依赖LLM时，他们有可能将可能产生幻觉的输出视为真理，从而导致合规性问题。

过度代理（Excessive Agency）

由于其自主能力，像AutoGPT这样的代理需要强大的保障措施，特别是当它们被配置为具有删除文件或修改关键基础设施的权限时。

插件滥用与升级（Plugin Abuse & Escalation）

通过利用LLM的插件访问权限，攻击者可以制作提示，诱使模型提取敏感秘密或向后端系统发出任意的未经授权的命令。这本质上是伪装成自然对话的常见命令注入。

不安全插件设计（Insecure Plugin Design）

不安全设计的插件，充满漏洞，如缺少或不充分的身份验证和授权控制，充当后端基础设施的开放门户。如果没有适当的保障措施，这些有缺陷的插件可能被利用来获得对关键系统及其持有的敏感数据的未经授权访问。

模型拒绝服务（Model DoS）

与许多系统一样，LLM容易受到拒绝服务（DoS）攻击。恶意制作的输入，如无限消耗计算资源的递归提示循环，或故意用大量令牌输入淹没模型，可以有效地耗尽系统的计算能力。

智能体AI：高度概述

到目前为止，我们还没有真正讨论智能体AI。当您将LLM连接到工具、赋予它们记忆或让它们使用API时，它们就变成了代理。这极大地改变了安全格局。想象一个收据处理代理。它接受PDF，从向量数据库查询政策，验证索赔，然后通过API路由批准。当PDF提示操纵代理将欺诈性费用标记为紧急和有效时会发生什么？没有人发现它。那就是代理权力被滥用。

以下是典型智能体AI系统流程的视觉演练——以及攻击者的攻击点：

智能体工作流中的常见威胁通常包括：

工具滥用（Tool Misuse）

当代理被授予工具访问权限时——例如，shell访问、控制关键系统的API或自动化平台——薄弱的保障措施或目标不一致可能导致滥用。这种滥用可能包括删除基本文件、修改配置、发出意外的财务交易或启动网络扫描，并且通常源于验证不足、指令模糊或推理和目标转换错误。

意图操纵（Intent Manipulation）

攻击者可能制作提示或输入序列，利用代理目标跟踪或对齐机制中的弱点。这种操纵可以微妙或公开地将代理的意图从其原始任务转移开。例如，攻击者可能在提示中嵌入误导性或对抗性指令，导致助手泄露敏感数据、破坏其他任务或未经授权提升其权限。

权限泄露（Privilege Compromise）

如果代理被配置了API令牌或访问凭证，这些凭证授予了超出其当前任务所需的多余权限，那么代理逻辑中的泄露或外部操纵可能允许滥用。这可能包括访问不应看到的用户数据、修改基础设施或冒充其他服务。

代理间通信投毒（Agent-to-Agent Communication Poisoning）

在多个代理交互的系统中，例如 decentralized AI agents 协作处理工作流，攻击者可能向通信流中注入虚假或操纵的数据。如果不进行验证，这种错误信息可能会级联，导致代理做出错误决策、任务失败或将错误传播到整个系统。

保护智能体AI：MAESTRO框架

现在我们已经了解了一些威胁，我们可以看看如何保护智能体AI。MAESTRO（多代理环境、安全、威胁、风险和结果）框架是一种威胁建模方法，由云安全联盟设计，旨在应对智能体AI系统带来的安全挑战，因此这可能是一个很好的起点。

当CSA意识到传统威胁建模框架如STRIDE、PASTA和LINDDUN无法处理智能体AI的动态和自主性质时，MAESTRO应运而生。这些框架无法解决AI特定的漏洞，如对抗性攻击、数据投毒以及多代理系统带来的复杂性。

MAESTRO的七层结构

MAESTRO的结构围绕一个七层参考架构，每一层代表智能体AI系统的一个关键组件。下表概述了所有这些层，以及它们所代表的风险和真实威胁。

层级	风险	真实威胁
基础层（Foundation）	模型投毒	恶意训练数据导致模型推荐诈骗URL或产生有害输出。
数据操作（Data Operations）	嵌入漂移	过时或操纵的向量嵌入导致系统批准不相关或有害内容。
代理框架（Agent Frameworks）	插件滥用	代理利用插件访问未经授权的文件，例如读取机密秘密。
部署与基础设施（Deployment and Infrastructure）	日志中的秘密	API密钥或敏感数据无意中被记录并通过云监控工具暴露。
评估与可观察性（Evaluation and Observability）	日志篡改	代理删除或更改日志以隐藏欺诈或恶意行为的证据。
安全与合规（Security and Compliance）	护栏绕过	代理规避已建立的批准策略，未经适当授权执行操作。
代理生态系统（Agent Ecosystem）	恶意代理	受损代理影响或感染其他代理，导致恶意行为级联。

MAESTRO已在各种环境中有效应用，以增强智能体AI系统的安全性。例如，使用MAESTRO，安全分析师识别了与API交互相关的潜在风险，确保了对滥用的强大保护。

Wallarm API安全如何提供帮助

正如我们所看到的，智能体AI引入了新的攻击面——其中许多集中在API层。API是智能体工作流的神经系统：它们启用工具使用，将LLM连接到数据库和应用程序，并自动化操作。但这种能力也使它们成为主要目标。MAESTRO帮助我们系统地思考这一点。它的每一层都揭示了AI和API安全是如何紧密相连的。

基础层：中毒的模型可能以不安全的方式或借口调用API，产生欺诈或有害输出。
数据操作：嵌入漂移可能导致代理基于过时或操纵的表示批准或拒绝API请求。
代理框架：插件通常作为API的包装器——如果代理滥用插件访问，它本质上是在执行未经授权的API调用。
基础设施：记录秘密或API令牌会将后端服务暴露给攻击者——这是一个直接的API安全问题。
评估：如果代理篡改日志，API滥用可能未被检测到，破坏审计跟踪和响应。
合规：当代理绕过批准策略并触发未经授权的API时，合规风险升级。
生态系统：恶意代理可以劫持跨环境的API，通过横向移动传播攻击。

那么，Wallarm如何融入？Wallarm提供多方面的方法来保护AI驱动的环境：

防止注入攻击和数据泄露：Wallarm检测并阻止提示注入尝试，防止未经授权的访问和潜在泄露。
保护关键企业系统：Wallarm将AI代理限制在批准的API上，并监控它们的交互，以保护企业系统免受滥用和未经授权的访问。
控制运营成本：通过实时监控API使用情况，Wallarm帮助检测和缓解可能导致意外成本的滥用行为。
确保安全和合规运营：Wallarm提供工具来执行合规策略、监控敏感数据流并维护AI操作的完整性。

想了解更多关于Wallarm如何保护智能体AI的信息？请点击此处。

AI安全威胁全景与防御框架解析

本文深入探讨AI安全面临的十大关键威胁，包括提示注入、训练数据投毒等攻击手法，并详细介绍针对智能体AI的MAESTRO安全框架，揭示API安全与AI安全的紧密关联，为企业构建AI安全防线提供实践指导。