展望AI首尔峰会:推动前沿AI安全国际合作
去年,某国政府在布莱切利公园举办了首届全球前沿AI安全峰会,聚焦AI前沿发展的快速进展,并推动了一系列国际行动,包括《布莱切利宣言》、新AI安全研究所的成立以及《先进AI安全国际科学报告》。
六个月后,国际社会有机会在AI首尔峰会上延续这一势头,进一步促进全球合作。以下分享关于本次峰会及未来峰会如何推动建立共同全球前沿AI安全方法的思考。
AI能力持续快速发展
自布莱切利峰会以来,整个AI领域创新不断,包括某机构的进展。AI持续推动关键科学领域的突破,例如新的AlphaFold 3模型以前所未有的准确性预测所有生命分子的结构和相互作用,这将深化对生物世界的理解并加速药物发现。同时,Gemini系列模型已使全球数十亿人使用的产品更加实用和易用。此外,还在改进模型的感知、推理和交互能力,近期通过Project Astra分享了构建未来AI助手的进展。
AI能力的进步有望改善人们的生活,但也带来了新的安全问题,需要在多个关键安全领域协作解决。某机构正通过开创性安全研究识别和应对这些挑战。近几个月来,分享了为先进模型开发全面安全和责任评估的演进方法,包括评估欺骗、网络安全、自我增殖和自我推理等关键能力的早期研究。还发布了关于使未来先进AI助手与人类价值观和利益保持一致的深入探索。除了大语言模型,近期还分享了AlphaFold 3的生物安全方法。
这项工作基于一个信念:安全与治理的创新必须与能力创新同步进行,两者相互促进。
建立前沿AI风险的国际共识
最大化先进AI系统的效益需要就关键前沿安全问题建立国际共识,包括预测和准备当前模型之外的新风险。然而,由于这些未来潜在风险的高度不确定性,政策制定者迫切需要独立、科学的观点。
因此,新《先进AI安全国际科学报告》临时版的发布是AI首尔峰会的重要组成部分,期待今年晚些时候提交研究证据。这类努力可能逐渐成为峰会进程的核心输入,如果成功,应赋予其更永久的地位,类似政府间气候变化专门委员会的功能。这将为全球政策制定者提供国际行动所需的关键证据基础。
相信这些AI峰会可以提供一个定期论坛,专门用于建立国际共识和共同、协调的治理方法。保持对前沿安全的独特关注也将确保这些会议与其他国际治理努力互补而非重复。
建立评估最佳实践和一致治理框架
评估是AI治理决策的关键组成部分,使我们能够衡量AI系统的能力、行为和影响,是风险评估和设计适当缓解措施的重要输入。然而,前沿AI安全评估科学仍处于早期发展阶段。
因此,某机构与其他领先AI实验室共同发起的前沿模型论坛(FMF)正与某国和另一国的AI安全研究所及其他利益相关者合作,探讨评估前沿模型的最佳实践。AI峰会可以帮助在国际范围内扩展这项工作,避免重复或冲突的国家测试和治理制度。避免可能无意中损害安全或创新的碎片化至关重要。
某国和另一国的AI安全研究所已同意建立安全测试的共同方法,这是迈向更大协调的重要第一步。认为有机会在此基础上逐步建立全球共同方法。首尔峰会的一个初步优先事项可以是商定路线图,让广泛参与者合作开发和标准化前沿AI评估基准和方法。
开发共享风险管理框架也很重要。为促进这些讨论,近期推出了前沿安全框架的第一版,这是一套主动识别未来可能造成严重危害的AI能力并建立检测和缓解机制的协议。预计该框架将随着实施经验、对AI风险和评估理解的深化以及与行业、学术界和政府的合作而显著演进。希望分享方法将促进与他人合作,商定评估未来AI模型安全的标准和最佳实践。
迈向全球前沿AI安全方法
AI前沿进展可能带来的许多风险本质上是全球性的。随着AI首尔峰会的召开以及未来某国及其他峰会的展望,兴奋于推动前沿AI安全全球合作的机会。希望这些峰会提供一个专门论坛,推动建立共同全球方法。正确执行这一步是释放AI对社会巨大效益的关键。