应对AI国家安全风险:可验证声明与代码生成局限

Trail of Bits针对OSTP人工智能国家优先事项的正式回应,强调需建立可验证的AI安全声明体系,指出大语言模型在代码生成中的局限性,并分析AI在漏洞检测和国家安全领域的两面性影响。

Trail of Bits对OSTP人工智能国家优先事项信息请求的回应

Heidy Khlaaf, Michael Brown
2023年7月18日
机器学习, 政策

科学与技术政策办公室(OSTP)发布了一份信息请求(RFI),征询如何制定最佳政策以支持负责任的人工智能发展,同时最大限度降低对权利、安全和国家安全的风险。在我们的回应中,我们强调了以下观点:

为确保人工智能的发展能够保护人们的权利和安全,必须构建可验证的声明体系并要求开发人员对其负责。这些声明必须限定在监管、安全、伦理或技术应用范围内,并且必须足够精确以便可证伪。随后,独立监管机构可以使用安全案例(即记录在案的证据体系)来评估人工智能系统是否符合这些声明,正如FDA在制造业等行业所要求的那样。

大语言模型(LLMs)不能安全地用于直接生成代码,但它们适用于某些增强代码可读性或促进开发人员理解代码的子任务。这些子任务包括建议对现有代码进行更改、用自然语言总结代码以及提供代码补全建议。然而,使用LLMs完成这些子任务需要一定程度的专业知识,因为它们的输出不能保证正确或完整。

此外,最近的非LLM人工智能方法在提高软件安全性方面显示出潜力。例如,使用基于图的模型的基于AI的漏洞扫描器在检测某些类型的漏洞方面优于传统漏洞扫描器。

不能 solely 依赖基于AI的系统来识别网络漏洞,但它们可以用来补充传统工具和手动工作。特别是,基于AI的系统可以减少发现和修复某些漏洞所需的时间和精力。然而,需要更好的数据集训练来减少误报,并且开发人员为其项目选择正确的AI模型至关重要。像ChatGPT这样的生成式AI模型不适合检测新颖或非公开可用的漏洞,因为它们是为自然(非计算机)语言量身定制的,并且已经在列出源代码漏洞的文章上进行了训练。

人工智能系统显著降低了进行攻击所需的技术专业知识和时间,这对国家安全构成了明确的风险。攻击者可以使用先进或专业的人工智能来快速开发或定制针对已知漏洞的漏洞利用程序,并在它们被修补之前部署它们,这可能会严重影响国家基础设施。此外,LLMs擅长制作难以检测的网络钓鱼攻击,而用于音频/视觉媒体的生成式AI系统可用于进行社会工程和虚假信息活动。

必须制定应对这些威胁的对策。例如,DARPA的MediFor和SemaFor在对抗深度伪造技术方面取得了成功。为了帮助AI系统变得更有效,我们提出了一个框架,以可衡量和系统的方式评估和促进这些技术的增强。

我们的完整回复为选定的问题提供了更多细节。我们赞扬OSTP促进关于制定国家AI战略的开放讨论。

如果您喜欢这篇文章,请分享:
Twitter | LinkedIn | GitHub | Mastodon | Hacker News

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计