微软安全响应中心(MSRC)持续探索如何更清晰地评估微软产品和服务中报告的漏洞影响。为此,我们发布《Microsoft Vulnerability Severity Classification for AI Systems》,在现有漏洞严重性分类基础上进行更新,新增覆盖微软产品和服务中AI使用场景特有的漏洞类别。
新增漏洞类别
我们引入三个全新顶级分类,每个类别包含一个或多个AI特有的漏洞类型:
1. 推理操作
此类漏洞可能被用于操控AI模型对单个推理请求的响应,但不会修改模型本身。包含两种新漏洞类型:
- 指令注入:通过输入使模型偏离预期行为的指令(类似"提示注入"概念,但强调输入本身不构成漏洞,关键在于触发异常行为)
- 输入扰动:通过干扰有效输入使模型生成错误输出(不同于普通输出错误,需证明存在可复现的安全影响)
2. 模型篡改
涉及训练阶段对模型的操控,包含:
- 模型投毒:通过篡改模型架构/训练代码/超参数污染模型
- 数据投毒:在训练前篡改训练数据集 需证明最终模型存在可验证的异常行为(如后门植入)
3. 推理信息泄露
通过模型交互推断敏感信息,包括:
- 训练数据推断(成员/属性/特性推断)
- 模型架构/权重窃取
- 系统提示/用户输入提取 评估标准取决于攻击者可达到的推断置信度
与现有分类的关系
这些更新是对现有分类的补充。许多AI系统漏洞仍适用原有分类,例如:
- 直接窃取模型权重 → 现有"信息泄露"类
- 修改存储的模型权重 → “篡改"类
- 模型响应延迟 → “拒绝服务"类
特别说明
以下情况不属于安全漏洞范畴:
- 仅影响攻击者自身的场景(如仅攻击者可见的异常响应)
- 模型普通输出错误(无明确扰动证据)
与其他分类体系的关联
本框架与MITRE ATLAS、OWASP LLM Top 10等标准存在关联但不完全对应。新分类不仅适用于大语言模型,还覆盖所有AI形态。
微软将持续监控AI安全领域的发展,动态更新分类标准。我们鼓励研究人员通过secure@microsoft.com或各产品反馈渠道提交发现。