我们需要新的AI安全评估方法 - Trail of Bits博客
摘要:Trail of Bits推出了专注于机器学习和人工智能的新实践,将安全工程方法相结合,创建了创新的风险评估与保障计划。该计划评估潜在的定制化风险,并为基于AI的系统确定必要的安全措施。
如果你在过去六个月关注过任何新闻,就会意识到人们对人工智能的热情已经达到了前所未有的高度。公众纷纷涌向基于GPT-3和Stable Diffusion等系统构建的工具,对这些工具如何改变我们的创造能力和互动方式着迷不已。虽然这些系统占据了头条新闻,但它们只是当前使用的基于AI系统的一小部分,这些系统正在影响着金融、医疗、交通等生活各个方面的技术成果。
许多人还试图将GPT-3等模型强行应用到自己的应用程序中,尽管这些模型可能会带来意外风险或无法达到预期效果。随着行业向多模态模型发展,这些风险将会进一步加剧。
随着各个领域的人们都试图搭上AI的快车,我们正在处理那些在过去50年席卷社会的创新浪潮中一直存在的安全和保障问题。这包括适当的风险识别和量化、负责任和协调的漏洞披露,以及安全部署策略等问题。在匆忙拥抱AI的过程中,公众对其影响的全面范围以及这些系统是否真正安全感到困惑。此外,由于将传统措施应用于基于AI的系统存在局限性和细微差别,旨在映射、衡量和减轻新发现风险的工作还远远不够。
Trail of Bits的新ML/AI保障实践旨在解决这些问题。通过即将开展的工作,我们不仅希望确保AI系统已经准确评估了潜在风险和安全问题,还希望建立一个框架,供审计人员、开发人员和其他利益相关者使用,以更好地评估基于AI系统的潜在风险和所需的安全缓解措施。进一步的工作将为未来的机器学习模型建立评估基准,特别关注网络安全。我们将以我们在其他技术领域应用的严谨态度来处理AI生态系统,并希望这些服务能够改变该领域从业者的日常工作方式。
在我们的ML保障团队发布的一篇论文中,我们提出了一个新颖的端到端AI风险框架,该框架包含了操作设计域(ODD)的概念,可以更好地概述系统可能存在的危险和危害。ODD是自动驾驶汽车领域使用的一个概念,但我们希望更进一步:通过一个可以应用于所有基于AI系统的框架,我们可以更好地评估潜在风险和所需的安全缓解措施,无论应用场景如何。
我们在论文中还讨论了:
- 当"安全"不意味着安全时:AI社区将"需求工程"与"安全措施"混为一谈,但这并不是一回事。事实上,它们往往是矛盾的!
- 对新措施的需求:从其他领域(如硬件安全)采用的风险评估实践并不适用于AI。需要做更多工作来发现直接导致系统性故障的设计问题。
- 当"安全"不意味着"安全"时:这两个术语不可互换,在应用于AI和ML系统时需要以不同的方式进行评估。
- 并非一切都是坏的:由于通用AI和ML模型缺乏明确的操作边界,考虑到大量的应用和潜在危险,很难准确评估相关风险和安全。我们讨论了哪些模型可以进行调整,特别是那些能够确保安全性和可靠性的模型。
如果我们不能保护世界正在匆忙采用的系统,AI社区和公众将遭受与过去相同或更严重的后果。为了做到这一点,在安全目标和风险评估的术语和技术方面达成共识至关重要。然而,我们不需要重新发明轮子。适用的技术已经存在;只需要将它们调整到AI和机器学习领域。通过这篇论文和我们实践即将开展的工作,我们希望为AI保障和安全带来清晰度和凝聚力,以期能够对抗当前市场中淡化这种新兴技术安全性的营销炒作和夸大的商业信息。
这种方法建立在我们之前的机器学习工作基础上,只是我们在这个领域努力的开始。任何有兴趣与这个团队合作的组织都可以联系Trail of Bits咨询未来的项目。