我们对美国陆军开发AIBOM工具RFI的回应 - Trail of Bits博客
Adelin Travers, Michael Brown
2024年2月28日
机器学习, 政策
美国陆军情报、电子战与传感器项目执行办公室(PEO IEW&S)最近发布了一份信息请求(RFI),涉及实现和自动化生成人工智能物料清单(AIBOM)的方法,作为Project Linchpin的一部分。RFI将AIBOM描述为构建、训练、验证和配置AI模型及其供应链关系所需组件的详细列表。与软件物料清单(SBOM)概念类似,AIBOM概念的目标是让AI模型的提供者和消费者能够有效应对供应链漏洞。在这篇博客文章中,我们总结了我们的回应,包括我们改进概念、确保AI模型安全以及有效实施AIBOM工具的建议。
背景细节与初步印象
虽然美国陆军正在主导采用这项技术的研究工作,但我们对这份RFI的回应可能对任何使用AI/ML模型并希望评估这些模型、其组件和架构以及其供应链安全性的组织都有用。
Project Linchpin是PEO IEW&S的一项倡议,旨在为情报、网络和电子战系统开发和部署AI/ML能力创建操作管道。为Project Linchpin提议的AIBOM概念将详细说明创建AI/ML模型所涉及的组件和供应链关系,并将用于评估此类模型的漏洞。根据目前的提议,美国陆军的AIBOM概念包括以下内容:
- 一个SBOM,详细说明用于构建和验证给定AI模型的组件
- 一个用于详细说明模型属性、架构、训练数据、超参数和预期用途的组件
- 一个用于详细说明用于创建模型的数据的谱系和来源的组件
AIBOM是物料清单(BOM)概念的自然延伸,用于记录和审计构成复杂系统的软件和硬件组件。随着AI/ML模型变得越来越普遍,开发有效的AIBOM工具提供了一个机会,可以在这些系统变得无处不在之前主动确保其安全和性能。然而,我们认为当前提议的AIBOM概念存在一些缺点,需要解决这些缺点以确保在实施AIBOM工具时考虑到AI/ML系统的独特方面。
AIBOM概念的优缺点
AIBOM非常适合枚举SBOM工具会遗漏的AI/ML模型组件,例如原始数据集、与ML框架和传统软件的接口,以及AI/ML模型类型、超参数、算法和损失函数。然而,提议的AIBOM概念存在一些显著缺点。
首先,它无法提供给定AI模型的完整安全审计,因为模型训练和使用的某些方面无法静态捕获;AIBOM工具必须辅以其他安全审计方法。(我们在下一节中更详细地介绍这些方法。)其次,提议的概念没有通过硬件物料清单(HBOM)考虑AI/ML特定的硬件组件。与ML供应链的其他部分一样,部署的AI/ML系统中常用的专用硬件组件(如GPU)可能存在数据泄漏等独特漏洞,因此应被AIBOM捕获。
此外,AIBOM工具会遗漏重要的AI/ML特定下游系统依赖关系和供应链范式,如机器学习即服务预测API(常见于LLM)。例如,AI模型提供商可能受到难以或无法检测的攻击向量的影响,例如网络规模训练数据集的中毒和LLM中的“休眠代理”。
确保AI/ML模型安全
AI/ML模型训练和使用的许多方面无法静态捕获,因此会限制提议的AIBOM概念提供完整安全审计的能力。例如,它不会捕获攻击者是否控制了模型摄取训练数据的顺序,这是一种潜在的数据中毒攻击向量。为确保给定AI模型具有强大的供应链安全,AIBOM概念应辅以其他安全技术,如数据清理/规范化工具、异常检测和完整性检查,以及训练和推理环境配置的验证。
此外,我们建议扩展AIBOM概念以考虑AI/ML模型中的数据和模型转换组件。例如,AIBOM概念应能够获取有关正在使用的数据标签和标注程序、模型管道中的数据转换程序、模型构建过程以及数据管道的基础设施安全配置的详细信息。捕获这些项目可能有助于检测和解决AI/ML模型供应链中的漏洞。
实施AIBOM概念
目前构建有效且自动化的工具来进行基于AIBOM的安全审计存在若干障碍。首先,迫切需要建立一个针对AI/ML模型及其数据管道(例如,模型超参数、数据转换程序)的弱点和漏洞的健壮数据库。提议的数据库没有提供AI/ML漏洞的强定义,因此无法提供安全审计所需的基本事实。该数据库应为AI/ML弱点定义独特的抽象,并强制执行机器可读格式,以便该抽象可用作AIBOM安全审计的数据源。
AIBOM工具必须在AI/ML操作管道的数据收集/转换和模型配置/创建阶段使用。在许多情况下(例如,基于ChatGPT构建的工具),这些阶段可能由第三方控制。我们主张第三方AI/ML即服务提供商为其模型采用透明、开源的原则,以帮助确保使用其平台构建的工具的安全性和保障性。
最后,需要进一步的研究和开发来创建自动跟踪数据谱系和来源的工具。高级AI/ML模型的安全和保障问题已经开始凸显对此类功能的需求,但实用工具仍然需要数年时间。
一旦这些关键研究问题得到解决,我们预计实施AIBOM工具和审计程序将需要与实施SBOM工具和程序类似的努力。然而,会有几个关键差异需要专门的知识和技能。今天的开发人员、安全工程师和IT团队将需要在数据科学、数据管理以及AI/ML特定框架和硬件等技术领域提升技能。
最后 thoughts
我们很高兴继续讨论和开发支持高保真基于AIBOM的安全审计的技术和自动化工具。我们计划继续与社区互动,并邀请您阅读我们的完整回应以获取更多细节。
如果您喜欢这篇文章,请分享:
Twitter
LinkedIn
GitHub
Mastodon
Hacker News