更新AI系统漏洞严重性分类标准
微软安全响应中心(MSRC)始终致力于提供关于我们如何评估产品和服务的漏洞影响的清晰度和透明度。为此,我们宣布推出《微软AI系统漏洞严重性分类》,这是对微软现有漏洞严重性分类(即我们的“bug bar”)的更新,专门涵盖因在产品和服务中使用AI而产生的新漏洞类别。
本次更新的目标是为外部研究人员和微软安全工程团队提供一个通用框架,用于讨论漏洞提交的影响,比之前的指南更加详细。
新漏洞类别
我们引入了三个新的顶级类别,每个类别包含一个或多个AI特定漏洞类型*。
1. 推理操纵
此类别包含可能被利用来操纵AI模型对单个推理请求的响应,但不修改模型本身的漏洞。此类别中有两种新的漏洞类型:命令注入和输入扰动。
命令注入是指能够注入导致模型偏离其预期行为的指令。这与“提示注入”的概念有些相似,但我们想明确的是,能够注入(部分)提示本身并不是漏洞——只有当注入的提示能够显著改变模型的行为时,才成为漏洞。例如,注入无关信息不是漏洞,而注入导致模型执行完全不同任务的命令/指令则是漏洞。另一方面,命令注入比提示注入更广泛,因为注入的命令不一定必须是文本输入——它们可以是任何导致模型偏离预期行为的命令类型(例如,多模态模型中的特殊构造图像)。
输入扰动是指能够扰动有效输入,使得模型产生不正确输出的能力。这有时也称为规避或对抗样本,主要适用于决策系统。这与简单地找到不正确输出的例子不同——为了符合安全漏洞的条件,必须存在对有效输入的明显扰动,这种扰动一致地导致不正确输出,并具有可证明的安全影响。
此类别中漏洞的严重性取决于被操纵的响应在特定产品或服务中的使用方式。如果漏洞的潜在影响仅限于攻击者自身(即被操纵的响应仅显示给攻击者),我们目前不认为这是范围内的漏洞。如果被操纵的响应直接显示给其他用户或用于做出影响其他用户的决策(例如,跨域命令注入),我们会分配更高的严重性。
2. 模型操纵
此类别包含可能被利用在训练阶段操纵模型的漏洞。此类别中有两种新的漏洞类型:模型投毒和数据投毒,两者都涉及在训练期间操纵模型。
模型投毒是指通过篡改模型架构、训练代码或超参数来毒化训练模型的能力。
数据投毒类似于模型投毒,但涉及在训练发生之前修改模型训练所依赖的数据。
要符合上述任一漏洞类型的条件,必须对最终模型产生可证明的影响,这种影响在没有投毒的情况下不会存在。例如,如果在训练期间能够向模型插入后门,并且可以证明这些后门在最终模型中持续存在,并在推理时被特定输入触发,则会被评估为投毒。此类别中漏洞的严重性取决于受影响模型的使用方式。与上述推理操纵类别类似,仅影响攻击者的模型操纵漏洞目前不在范围内,而可能影响其他用户的漏洞则被分配更高的严重性。
3. 推理信息泄露
此类别包含可能被利用来推断模型训练数据、架构和权重或推理时输入信息的漏洞。这与现有的信息泄露类别相似,但在信息获取方式上有所不同。信息泄露漏洞直接揭示受影响的数据,而推理信息泄露漏洞允许推断关于受影响数据的某些信息。
此类别中有几种新的漏洞类型,每种考虑不同的攻击者目标。这些包括推断特定数据记录是否在训练期间使用(成员推断)、推断训练数据记录的敏感属性(属性推断)或推断训练数据的属性(属性推断)。此类别中的另一种漏洞类型涵盖基于与模型的交互推断关于模型本身的信息,如其架构或权重(模型窃取)。此类别中的最终漏洞类型涉及提取模型的系统提示(提示提取)或关于其他用户输入的信息(输入提取)。
此类别中的漏洞根据潜在攻击者可达到的置信度/准确性水平进行评估,并且仅当攻击者能够获得足够的置信度/准确性水平时才适用。在所有情况下,严重性取决于受影响数据的分类(例如,训练数据、模型权重或系统提示)。我们使用与最近发布的《微软在线服务漏洞严重性分类》相同的数据分类。
补充现有漏洞类别
需要注意的是,这是我们现有漏洞严重性分类的更新,而不是所有可能影响AI系统的漏洞的独立列表。事实上,许多可能出现在AI系统中的漏洞已经由我们现有的严重性分类涵盖。例如,通过存储账户配置错误直接窃取训练模型的权重由现有的信息泄露类别涵盖。直接修改存储的训练模型权重是篡改的一个例子。导致模型响应缓慢的漏洞由现有的拒绝服务类别涵盖。
范围外的漏洞类型
在少数行中,我们指出特定场景“不在范围内”。这通常发生在影响仅限于攻击者自身的情况下(例如,仅显示给攻击者的被操纵响应)。这并不是说这些场景不相关。事实上,我们鼓励研究人员通过各自的反馈渠道直接向受影响的产品或服务报告它们,类似于其他非安全错误。
与其他分类法的关系
上述新漏洞类别与最近发布的分类法(如MITRE ATLAS、OWASP大型语言模型应用十大漏洞和NIST对抗性机器学习分类法)有许多相似之处,但并不总是一对一的映射。例如,新的OWASP LLM十大漏洞中的几个安全挑战直接映射到上述新类别,而其他则已经由我们bug bar中的现有漏洞类别涵盖,这些类别自动适用于AI系统和服务。此外,我们上面引入的新漏洞类别不仅限于LLM——它们旨在涵盖所有AI模态。总体而言,我们认为这些新类别是对现有分类法的补充。
未来展望
我们认识到,这次初始更新可能未包含所有可能的AI特定漏洞类型,并且新的漏洞类型可能随时被发现。我们将继续监控这一领域,并根据需要添加或更新漏洞类型。
我们重视外部研究人员的合作,他们发现并报告安全漏洞,帮助我们保护数十亿客户。我们希望这些资源使理解我们漏洞严重性分类背后的推理更加容易,并帮助研究人员将精力集中在最高影响领域。
如果您对新漏洞分类指南或MSRC有任何疑问,请访问我们的FAQ页面或联系secure@microsoft.com。
*本文中的所有漏洞描述和示例仅供参考。有关规范性定义,请参阅《微软AI系统漏洞严重性分类》。