我们需要衡量AI安全的新方法
Trail of Bits已启动专注于机器学习和人工智能的实践,整合安全性与保障方法论,创建全新的风险评估和保障计划。该计划评估潜在的定制风险,并确定基于AI的系统所需的安全保障措施。
过去六个月里,公众对人工智能的热情空前高涨。人们涌向基于GPT-3和Stable Diffusion等系统构建的工具,着迷于它们如何改变我们的创造和互动能力。虽然这些系统占据了新闻头条,但它们只是当前使用的基于AI的系统的一小部分,这些系统正影响着金融、医疗、交通等生活各个领域的技术成果。人们还试图将GPT-3等模型强行应用到自己的应用中,尽管这些模型可能带来意外风险或无法满足预期效果。随着行业向多模态模型发展,这些风险将进一步加剧。
传统评估方法的局限性
当多个领域试图搭上AI快车时,我们正面临过去50年创新浪潮中存在的安全与保障问题。这包括适当风险识别与量化、负责任协调的漏洞披露以及安全部署策略等问题。在匆忙拥抱AI的过程中,公众对其影响的全面范围以及这些系统是否真正安全感到困惑。此外,由于将传统措施应用于基于AI的系统存在局限性和细微差别,试图映射、衡量和减轻新风险的工作仍显不足。
Trail of Bits的新实践方案
Trail of Bits的新ML/AI保障实践旨在解决这些问题。通过即将开展的工作,我们不仅要确保AI系统的潜在风险和安全问题得到准确评估,还要建立审计人员、开发人员和其他利益相关者可用于更好评估基于AI系统的潜在风险和所需安全缓解措施的框架。进一步的工作将为未来的机器学习模型建立评估基准,特别关注网络安全。
在我们的ML保障团队发布的论文中,我们提出了一种新颖的端到端AI风险框架,该框架融入了操作设计域(ODD)的概念,可以更好地概述系统可能存在的危险和危害。ODD是自动驾驶领域使用的概念,但我们希望进一步推广:通过建立可应用于所有基于AI系统的框架,我们可以更好地评估潜在风险和所需的安全缓解措施,无论应用场景如何。
论文核心观点
- “安全"不等于安全保障:AI社区将"需求工程"与"安全措施"混为一谈,这实际上是不同的概念,甚至常常相互矛盾
- 需要新衡量标准:从其他领域(如硬件安全)借鉴的风险评估实践并不适用于AI,需要更多工作来发现直接导致系统性故障的设计问题
- “安全"与"安全性"的区别:这两个术语不可互换,在应用于AI和ML系统时需要分别评估
- 现有模型的适应性:由于通用AI和ML模型缺乏明确的操作边界,难以准确评估相关风险和安全性。我们讨论了可以调整的模型,特别是那些能够确保安全性和可靠性的模型
未来展望
如果我们不能保护世界正在匆忙采用的系统,AI社区和公众将遭受与过去相同或更严重的后果。为此,必须在安全目标和风险评估的术语和技术上达成共识。但我们不需要重新发明轮子——适用的技术已经存在,只需要适应AI和机器学习领域。通过这篇论文和我们实践即将开展的工作,我们希望为AI保障和安全带来清晰度和凝聚力,以对抗当前市场中淡化这项新兴技术安全性的营销炒作和夸大商业信息。
这种方法建立在我们先前机器学习工作的基础上,只是我们在这个领域努力的开始。任何有兴趣与这个团队合作的组织都可以联系Trail of Bits咨询未来项目。