探索AI安全的未来:从LLM威胁到MAESTRO框架

本文深入探讨AI安全面临的紧迫挑战,包括OWASP LLM Top 10漏洞、Agentic AI的新型威胁,以及MAESTRO框架如何系统化应对这些风险。文章还揭示了AI与API安全的紧密联系,并介绍了Wallarm平台的多维度防护方案。

探索AI安全的未来:从LLM威胁到MAESTRO框架

AI安全是当今世界面临的最紧迫挑战之一。人工智能具有非凡的能力,尤其是随着Agentic AI的出现,其能力日益增强。但正因如此,确保其安全性显得尤为重要。AI处理海量数据并在业务运营中扮演越来越重要的角色;如果网络犯罪分子滥用AI,后果可能非常严重。

本文将探讨AI面临的一些最常见和紧迫的威胁、旨在帮助保护AI安全的框架,以及AI与API安全之间的内在联系。将其视为您的AI安全指南。那么,让我们开始吧。

OWASP LLM Top 10

OWASP大型语言模型(LLM)Top 10是由开放全球应用安全项目(OWASP)开发的专门框架,旨在应对LLM和生成式AI工具带来的独特安全挑战。

该框架于2024年11月首次发布,旨在帮助组织识别漏洞、实施缓解措施并确保安全的LLM开发。以下是完整的Top 10列表。

提示注入(Prompt Injection)

提示注入是恶意行为者向LLM注入恶意输入(如“忽略先前的指令”)以操纵模型行为的行为。当这些注入的提示诱使LLM使用外部工具时,后果可能非常严重,包括服务器端请求伪造(SSRF),允许攻击者访问内部系统或窃取敏感数据。

我们已经看到这种威胁的真实案例。例如,2024年12月,《卫报》报道称,OpenAI的ChatGPT搜索工具存在提示注入漏洞,允许隐藏的网页内容操纵其响应。测试显示,不可见文本可以用人工生成的正面评估覆盖负面评论,可能误导用户。

不安全输出处理(Insecure Output Handling)

这种漏洞源于认为AI生成的内容本质上是安全的假设。当LLM将原始HTML或JavaScript代码直接返回到Web应用程序时,就为跨站脚本(XSS)攻击打开了大门。

想象一下,一个恶意脚本伪装成无害文本被注入到网页中。当用户访问该页面时,他们的浏览器会在不知情的情况下执行此脚本,可能导致账户接管、数据窃取或网站篡改。这提醒我们,如果没有适当的清理,看似无害的LLM输出可能是危险的。

训练数据投毒(Training Data Poisoning)

训练数据投毒是一种微妙但危险的攻击,攻击者篡改用于训练AI模型的数据。例如,攻击者可能向GitHub提交中注入恶意数据,这些数据随后用于微调代码推荐模型。结果将是,受损模型可能开始推荐钱包诈骗或后门库,而不是输出安全有用的代码。

模型供应链漏洞(Model Supply Chain Vulnerabilities)

有时,LLM带有隐藏威胁,类似于软件供应链攻击,其中恶意代码嵌入在模型文件中。例如,在Hugging Face上托管的一个模型被发现包含恶意负载,该负载建立了到远程服务器的反向shell, effectively granting attackers complete control over the victim’s machine.

权限配置错误(Permission Misconfigurations)

过于宽松的权限是一个严重的AI安全威胁。想象一下,如果一个AI代理继承了对敏感人力资源或财务API的管理员级访问权限,即使是一个基本的、看似无害的提示,如“显示员工工资”,也可能足以让恶意行为者窃取高度机密的工资数据。

过度依赖LLM输出(Overreliance on LLM Output)

这一点很简单:当人类操作员过度依赖LLM时,他们有可能将可能产生幻觉的输出视为真理,从而导致合规性问题。

过度代理(Excessive Agency)

由于其自主能力,像AutoGPT这样的代理需要强大的保障措施,尤其是当它们被配置为具有删除文件或修改关键基础设施的权限时。

插件滥用与升级(Plugin Abuse & Escalation)

通过利用LLM的插件访问权限,攻击者可以制作提示,诱使模型提取敏感秘密或向后端系统发出任意的未经授权的命令。这本质上是伪装成自然对话的常见命令注入。

不安全插件设计(Insecure Plugin Design)

不安全设计的插件,充满漏洞,如缺少或不充分的身份验证和授权控制,充当后端基础设施的开放门户。没有适当的保障措施,这些有缺陷的插件可能被利用来获得对关键系统和它们持有的敏感数据的未经授权访问。

模型拒绝服务(Model DoS)

与许多系统一样,LLM容易受到拒绝服务(DoS)攻击。恶意制作的输入,如无限消耗计算资源的递归提示循环,或故意用大量令牌输入淹没模型,可以有效地耗尽系统的计算能力。

Agentic AI:高级概述

到目前为止,我们还没有真正讨论Agentic AI。当您将LLM连接到工具、赋予它们记忆或让它们使用API时,它们就变成了代理。这极大地改变了安全格局。想象一个收据处理代理。它接受PDF,从向量数据库查询策略,验证索赔,然后通过API路由批准。当PDF提示操纵代理将欺诈性费用标记为紧急和有效时会发生什么?没有人发现它。这就是代理能力的滥用。

以下是典型Agentic AI系统流程的视觉演练——以及攻击者攻击的地方:

Agentic工作流中的常见威胁通常包括:

工具滥用(Tool Misuse)

当代理被授予访问工具的权限时——例如,shell访问、控制关键系统的API或自动化平台——弱保障措施或目标不一致可能导致滥用。这种滥用可能包括删除基本文件、修改配置、发出意外的财务交易或启动网络扫描,并且通常是由于验证不足、指令模糊或推理和目标转换错误造成的。

意图操纵(Intent Manipulation)

攻击者可能制作提示或输入序列,利用代理目标跟踪或对齐机制中的弱点。这种操纵可以微妙或公开地将代理的意图从其原始任务转移。例如,攻击者可能在提示中嵌入误导性或对抗性指令,导致助手窃取敏感数据、破坏其他任务或在未经授权的情况下提升其权限。

权限妥协(Privilege Compromise)

如果代理被配置了API令牌或访问凭证,这些凭证授予了超出其当前任务所需的多余权限,代理逻辑的妥协或外部操纵可能允许滥用。这可能包括访问不应看到的用户数据、修改基础设施或冒充其他服务。

代理间通信投毒(Agent-to-Agent Communication Poisoning)

在多个代理交互的系统中,例如分散式AI代理协作完成工作流,攻击者可能向通信流中注入虚假或操纵的数据。如果未经验证,这种错误信息可能级联,导致代理做出糟糕的决策、任务失败或将错误传播到整个系统。

保护Agentic AI:MAESTRO框架

现在我们已经了解了一些威胁,我们可以看看如何保护Agentic AI。MAESTRO(多代理环境、安全、威胁、风险和结果)框架是一种威胁建模方法,由云安全联盟设计,旨在应对Agentic AI系统带来的安全挑战,因此这可能是一个很好的起点。

当CSA意识到传统威胁建模框架如STRIDE、PASTA和LINDDUN无法处理Agentic AI的动态和自主性质时,MAESTRO应运而生。这些框架无法解决AI特定的漏洞,如对抗性攻击、数据投毒以及多代理系统带来的复杂性。

MAESTRO的七层结构

MAESTRO的结构围绕一个七层参考架构,每一层代表Agentic AI系统的一个关键组件。以下是所有层的表格,以及它们代表的风险和真实威胁。

风险 真实威胁
基础(Foundation) 模型投毒 恶意训练数据导致模型推荐诈骗URL或产生有害输出。
数据操作(Data Operations) 嵌入漂移 过时或操纵的向量嵌入导致系统批准不相关或有害内容。
代理框架(Agent Frameworks) 插件滥用 代理利用插件访问未经授权的文件,例如读取机密秘密。
部署和基础设施(Deployment and Infrastructure) 日志中的秘密 API密钥或敏感数据无意中被记录并通过云监控工具暴露。
评估和可观察性(Evaluation and Observability) 日志篡改 代理删除或更改日志以隐藏欺诈或恶意行为的证据。
安全和合规(Security and Compliance) 护栏绕过 代理规避已建立的批准策略,执行未经适当授权的操作。
代理生态系统(Agent Ecosystem) 流氓代理 受损代理影响或感染其他代理,导致恶意行为的级联。

MAESTRO已在各种环境中有效应用,以增强Agentic AI系统的安全性。例如,使用MAESTRO,安全分析师识别了与API交互相关的潜在风险,确保了对滥用的强大保护。

Wallarm API安全如何帮助

正如我们所看到的,Agentic AI引入了新的攻击面——其中许多汇聚在API层。API是代理工作流的神经系统:它们启用工具使用,将LLM连接到数据库和应用程序,并自动化操作。但这种能力也使它们成为主要目标。MAESTRO帮助我们系统地思考这一点。它的每一层都揭示了AI和API安全是如何紧密相连的。

  • 基础:中毒的模型可能以不安全的方式或 under false pretenses 调用API,产生欺诈或有害输出。
  • 数据操作:嵌入漂移可能导致代理基于过时或操纵的表示批准或拒绝API请求。
  • 代理框架:插件通常充当API的包装器——如果代理滥用插件访问,它 essentially performing unauthorized API calls.
  • 基础设施:记录秘密或API令牌会暴露后端服务给攻击者——这是一个直接的API安全问题。
  • 评估:如果代理篡改日志,API滥用可能未被检测到,破坏审计跟踪和响应。
  • 合规:当代理绕过批准策略并触发未经授权的API时,合规风险升级。
  • 生态系统:流氓代理可以跨环境劫持API,通过横向移动传播攻击。

那么,Wallarm如何融入?Wallarm提供多方面的方法来保护AI驱动环境:

  • 防止注入攻击和数据泄漏:Wallarm检测并阻止提示注入尝试,防止未经授权的访问和潜在漏洞。
  • 保护关键企业系统:Wallarm将AI代理限制为批准的API,并监控它们的交互,以保护企业系统免受滥用和未经授权的访问。
  • 控制运营成本:通过实时监控API使用情况,Wallarm帮助检测和缓解可能导致意外成本的滥用行为。
  • 确保安全和合规操作:Wallarm提供工具来执行合规策略、监控敏感数据流并维护AI操作的完整性。

想了解更多关于Wallarm如何保护Agentic AI的信息?请点击这里。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计