AI安全与治理：Trail of Bits对OSTP国家人工智能优先事项的技术回应

Trail of Bits对OSTP国家人工智能优先事项信息征询的回应

为确保人工智能在发展过程中保护人们的权利与安全，必须构建可验证的主张并要求开发人员对此负责。这些主张需限定在监管、安全、伦理或技术应用范围内，且必须足够精确以实现可证伪性。独立监管机构随后可通过安全案例（即经过文档化的证据体系）评估AI系统是否符合这些主张，这与FDA在制造业等行业的要求一致。

大语言模型（LLM）不能安全地用于直接生成代码，但适用于某些增强代码可读性或辅助开发者理解代码的子任务。这些子任务包括：对现有代码提出修改建议、用自然语言总结代码、提供代码补全建议。但使用LLM完成这些子任务需要基础的专业知识，因为其输出无法保证正确性或完整性。

此外，近期非LLM的AI方法在提升软件安全方面展现出潜力。例如，使用基于图模型的AI漏洞扫描器在检测特定类型漏洞时优于传统扫描工具。

不能完全依赖基于AI的系统识别网络漏洞，但它们可与传统工具和人工努力形成互补。特别是，AI系统能够减少发现和修复某些漏洞所需的时间和精力。然而，需要更好的数据集训练以降低误报率，且开发者必须为项目选择合适的AI模型。像ChatGPT这样的生成式AI模型极不适合检测新型或非公开漏洞，因为它们专为自然（非计算机）语言设计，并基于列出源代码漏洞的文章进行训练。

AI系统显著降低了发起攻击所需的技术专长和时间，这对国家安全构成明确风险。攻击者可利用先进或专用AI快速开发或定制针对已知漏洞的利用程序，并在补丁发布前部署，这可能严重影响国家基础设施。此外，LLM擅长制作难以检测的钓鱼攻击，而用于音视频媒体的生成式AI系统可用于进行社会工程和虚假信息宣传活动。

必须针对这些威胁制定对策。例如，DARPA的MediFor和SemaFor已在应对深度伪造技术方面取得成效。为提升AI系统效能，我们提出了一个可衡量且系统化的框架，用于评估和促进这些技术的增强。

我们的完整回复为选定问题提供了更多细节。我们赞赏OSTP就制定国家AI战略推动开放讨论。