AI安全评估新框架:从风险识别到系统保障

Trail of Bits提出新型端到端AI风险框架,整合操作设计域概念,针对机器学习系统构建安全评估体系,解决传统方法在AI安全领域的适用性局限,涵盖风险量化、漏洞披露和部署策略等关键技术维度。

我们需要一种衡量AI安全性的新方法

摘要:Trail of Bits启动了专注于机器学习和人工智能的实践项目,结合安全性与保障方法论,创建新型风险评估和保障计划。该计划评估潜在定制化风险,并确定基于AI系统所需的安全保障措施。

如果您在过去六个月关注过任何新闻,就会意识到人们对人工智能的热情已如脱缰野马。公众纷纷涌向基于GPT-3和Stable Diffusion等系统构建的工具,着迷于它们如何改变我们的创造力和互动能力。虽然这些系统占据了新闻头条,但它们仅构成当前使用中的基于AI系统的很小部分,这些系统正影响着金融、医疗、交通等生活各个领域的技术成果。人们还试图将GPT-3等模型生搬硬套到自己的应用中,尽管这些模型可能带来意外风险或无法满足预期效果。随着行业向多模态模型发展,这些风险将会叠加。

随着多个领域试图搭上AI浪潮,我们正在应对过去50年席卷社会的创新浪潮中存在的安全与保障问题。这包括适当风险识别与量化、负责任且协调的漏洞披露以及安全部署策略等问题。在匆忙拥抱AI的过程中,公众对其影响的全面范围以及这些系统是否真正安全感到困惑。此外,由于将传统方法应用于基于AI的系统存在局限性和细微差别,试图映射、衡量和减轻新风险的工作仍存在不足。

Trail of Bits的新ML/AI保障实践旨在解决这些问题。通过即将开展的工作,我们不仅要确保AI系统的潜在风险和安全问题得到准确评估,还希望建立审计人员、开发人员和其他利益相关者可用于更好评估基于AI系统的潜在风险和所需安全缓解措施的框架。进一步的工作将为未来的机器学习模型构建评估基准,特别聚焦于网络安全。我们将以应用于其他技术领域的严谨态度对待AI生态系统,并希望这些服务改变该领域从业者的日常工作方式。

在我们的ML保障团队发布的论文中,我们提出了一种新颖的端到端AI风险框架,该框架整合了操作设计域(ODD)的概念,可以更好地概述系统可能存在的危险和危害。ODD是自动驾驶领域使用的概念,但我们希望进一步推广:通过建立可应用于所有基于AI系统的框架,我们可以更好地评估潜在风险和所需的安全缓解措施,无论应用场景如何。

我们在论文中还讨论了:

  • 当“安全”不意味着安全:AI社区将“需求工程”与“安全措施”混为一谈,这并非同一概念。事实上,它们常常是矛盾的!
  • 新措施的必要性:从其他领域(如硬件安全)借鉴的风险评估实践并不适用于AI。需要更多工作来发现直接导致系统性故障的设计问题。
  • 当“安全”不意味着“安全保障”:这两个术语不可互换,在应用于AI和ML系统时需要分别评估。
  • 并非全无是处:由于通用AI和ML模型缺乏明确的操作边界,鉴于海量的应用和潜在危险,难以准确评估相关风险和安全性。我们讨论了哪些模型可以适配,特别是那些能确保安全性和可靠性的模型。

如果我们无法保障世界正在匆忙采用的系统,AI社区和公众将遭受与过去相同或更严重的后果。为此,必须在安全目标和风险评估的术语和技术上达成共识。但我们不需要 reinvent the wheel(重复造轮子)。适用的技术已经存在;只需要将它们适配到AI和机器学习领域。通过本文和我们实践即将开展的工作,我们希望为AI保障和安全性带来清晰度和凝聚力,以对抗当前市场中淡化这项新兴技术安全性的营销炒作和夸大商业信息。

这种方法建立在我们先前机器学习工作的基础上,只是我们在这个领域努力的开始。任何有兴趣与这个团队合作的组织都可以联系Trail of Bits咨询未来项目。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计