我们对美军AIBOM工具开发RFI的回应
Adelin Travers, Michael Brown
2024年2月28日
机器学习, 政策
美国陆军情报、电子战与传感器项目执行办公室(PEO IEW&S)最近发布了一份信息请求(RFI),寻求实现和自动化生成人工智能物料清单(AIBOM)的方法,作为Project Linchpin的一部分。RFI将AIBOM描述为构建、训练、验证和配置AI模型及其供应链关系所需组件的详细清单。与软件物料清单(SBOM)概念类似,AIBOM概念的目标是让AI模型的提供者和消费者能够有效应对供应链漏洞。在这篇博客文章中,我们总结了我们的回应,包括我们改进概念、确保AI模型安全以及有效实施AIBOM工具的建议。
背景细节与初步印象
虽然美国陆军正在主导采用这项技术的研究工作,但我们对这份RFI的回应可能对任何使用AI/ML模型并希望评估这些模型、其组件和架构以及其供应链安全的组织都有用。
Project Linchpin是PEO IEW&S的一项倡议,旨在为情报、网络和电子战系统创建开发和部署AI/ML能力的操作管道。为Project Linchpin提议的AIBOM概念将详细说明创建AI/ML模型所涉及的组件和供应链关系,并将用于评估这些模型的漏洞。根据目前的提议,美国陆军的AIBOM概念包括以下内容:
- 一个SBOM,详细说明用于构建和验证给定AI模型的组件
- 一个用于详细说明模型属性、架构、训练数据、超参数和预期用途的组件
- 一个用于详细说明用于创建模型的数据的谱系和来源的组件
AIBOM是物料清单(BOM)概念的自然延伸,用于记录和审计构成复杂系统的软件和硬件组件。随着AI/ML模型变得越来越普遍,开发有效的AIBOM工具提供了一个机会,可以在这些系统变得无处不在之前主动确保其安全和性能。然而,我们认为当前提议的AIBOM概念存在一些缺点,需要解决这些缺点以确保在实施AIBOM工具时考虑到AI/ML系统的独特方面。
AIBOM概念的优缺点
AIBOM非常适合枚举SBOM工具会遗漏的AI/ML模型组件,例如原始数据集、与ML框架和传统软件的接口,以及AI/ML模型类型、超参数、算法和损失函数。然而,提议的AIBOM概念存在一些重大缺陷。
首先,它无法提供给定AI模型的完整安全审计,因为模型训练和使用的某些方面无法静态捕获;AIBOM工具必须辅以其他安全审计方法。(我们在下一节中更详细地介绍这些方法。)其次,提议的概念没有通过硬件物料清单(HBOM)考虑AI/ML特定的硬件组件。与ML供应链的其他部分一样,部署的AI/ML系统中常用的专用硬件组件(如GPU)可能存在数据泄漏等独特漏洞,因此应被AIBOM捕获。
此外,AIBOM工具会遗漏重要的AI/ML特定下游系统依赖关系和供应链范式,如机器学习即服务预测API(常见于LLM)。例如,AI模型提供商可能面临难以或无法检测的攻击向量,如网络规模训练数据集的中毒和LLM中的“休眠代理”。
确保AI/ML模型安全
AI/ML模型训练和使用的许多方面无法静态捕获,因此会限制提议的AIBOM概念提供完整安全审计的能力。例如,它无法捕获攻击者是否控制了模型摄取训练数据的顺序,这是一种潜在的数据中毒攻击向量。为确保给定AI模型具有强大的供应链安全,AIBOM概念应辅以其他安全技术,如数据清理/规范化工具、异常检测和完整性检查,以及训练和推理环境配置的验证。
此外,我们建议扩展AIBOM概念以考虑AI/ML模型中的数据和模型转换组件。例如,AIBOM概念应能够获取有关正在使用的数据标签和标注程序、模型管道中的数据转换程序、模型构建过程以及数据管道的基础设施安全配置的详细信息。捕获这些项目可能有助于检测和解决AI/ML模型供应链中的漏洞。
实施AIBOM概念
目前,构建有效且自动化的工具来进行基于AIBOM的安全审计存在若干障碍。首先,迫切需要建立一个针对AI/ML模型及其数据管道(例如,模型超参数、数据转换程序)的弱点