AI安全与治理:Trail of Bits对OSTP国家人工智能优先事项的技术回应

本文针对美国科技政策办公室关于AI国家优先事项的信息征询,从技术角度提出关键建议,包括可验证AI系统构建、LLM代码生成风险、基于图的漏洞检测技术、AI在网络安全中的局限性与应用场景,以及应对AI驱动攻击的防御框架。

Trail of Bits对OSTP国家人工智能优先事项信息征询的回应

为确保人工智能在发展过程中保护人们的权利与安全,必须构建可验证的主张并要求开发人员对此负责。这些主张需限定在监管、安全、伦理或技术应用范围内,且必须足够精确以实现可证伪性。独立监管机构随后可通过安全案例(即经过文档化的证据体系)评估AI系统是否符合这些主张,这与FDA在制造业等行业的要求一致。

大语言模型(LLM)不能安全地用于直接生成代码,但适用于某些增强代码可读性或辅助开发者理解代码的子任务。这些子任务包括:对现有代码提出修改建议、用自然语言总结代码、提供代码补全建议。但使用LLM完成这些子任务需要基础的专业知识,因为其输出无法保证正确性或完整性。

此外,近期非LLM的AI方法在提升软件安全方面展现出潜力。例如,使用基于图模型的AI漏洞扫描器在检测特定类型漏洞时优于传统扫描工具。

不能完全依赖基于AI的系统识别网络漏洞,但它们可与传统工具和人工努力形成互补。特别是,AI系统能够减少发现和修复某些漏洞所需的时间和精力。然而,需要更好的数据集训练以降低误报率,且开发者必须为项目选择合适的AI模型。像ChatGPT这样的生成式AI模型极不适合检测新型或非公开漏洞,因为它们专为自然(非计算机)语言设计,并基于列出源代码漏洞的文章进行训练。

AI系统显著降低了发起攻击所需的技术专长和时间,这对国家安全构成明确风险。攻击者可利用先进或专用AI快速开发或定制针对已知漏洞的利用程序,并在补丁发布前部署,这可能严重影响国家基础设施。此外,LLM擅长制作难以检测的钓鱼攻击,而用于音视频媒体的生成式AI系统可用于进行社会工程和虚假信息宣传活动。

必须针对这些威胁制定对策。例如,DARPA的MediFor和SemaFor已在应对深度伪造技术方面取得成效。为提升AI系统效能,我们提出了一个可衡量且系统化的框架,用于评估和促进这些技术的增强。

我们的完整回复为选定问题提供了更多细节。我们赞赏OSTP就制定国家AI战略推动开放讨论。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计