前沿AI安全框架更新与技术协议

本文详细介绍前沿AI安全框架的更新内容,包括关键能力等级安全协议、部署缓解流程改进以及应对欺骗性对齐风险的行业领先方案,涵盖AI模型安全评估和风险管控的技术实践。

前沿安全框架更新

最新版本的前沿安全框架(FSF)为通往AGI的道路制定了更强的安全协议。AI作为强大工具,正帮助应对从气候变化到药物发现等时代重大挑战,但随着能力提升,高级功能可能带来新风险。

去年首次推出前沿安全框架第一版后,某中心与行业、学术界及政府专家合作深化对风险的理解、实证评估及缓解措施。该框架已应用于评估Gemini 2.0等前沿模型的安全治理流程。基于此,现发布更新版前沿安全框架。

关键更新包括:

  • 针对关键能力等级(CCLs)的安全级别建议,识别需最强反泄露风险的领域
  • 实施更一致的部署缓解应用流程
  • 概述应对欺骗性对齐风险的行业领先方案

加强安全建议

安全缓解措施防止未授权方泄露模型权重,因权重访问会移除多数安全保护。随着AI能力增强,安全失误可能引发严重后果。初始框架采用分级安全方法,根据风险实施不同强度缓解措施。

基于广泛研究,现为每个CCL推荐安全级别*,反映前沿AI领域应对此类模型应实施的最低安全水平。该映射帮助定位需最强缓解措施的高风险区域。实际安全实践可能因整体安全态势超出此基线建议。

框架第二版特别建议机器学习研发(R&D)领域CCL采用高级别安全。前沿AI开发者需强化安全以应对模型加速和/或自动化AI研发的未来场景,避免能力失控扩散挑战社会管理AI快速发展的能力。

确保尖端AI系统持续安全是全球共同挑战和领先开发者的共同责任。安全措施的社会价值依赖全领域广泛采用,需时间构建所需安全能力,因此前沿AI开发者需共同推进安全措施并加速行业标准制定。

部署缓解流程

框架概述部署缓解措施,防止已部署系统关键能力滥用。更新后的部署缓解方法对达到误用风险域CCL的模型应用更严格安全流程。

更新方法包括以下步骤:首先通过迭代保障措施准备缓解方案,同时制定安全案例——可评估的论证,说明如何将模型CCL相关严重风险降至可接受水平。相应企业治理机构审核安全案例,仅批准后部署通用版本。部署后持续审查更新保障措施和安全案例。此变更因所有关键能力均需此全面缓解流程。

欺骗性对齐风险应对

初始框架主要关注误用风险(威胁行为者利用已部署或泄露模型关键能力造成危害)。在此基础上,率先主动应对欺骗性对齐风险,即自主系统故意破坏人类控制的风险。

初步方法聚焦检测模型何时发展出基线工具推理能力,使其在无保障时破坏人类控制。为此探索自动监控检测工具推理能力的非法使用。

若模型达到更强工具推理水平,自动监控将不足,因此积极推动进一步研究开发此类场景缓解方案。虽此类能力出现概率未知,但领域需为此可能性准备。

结论

将根据AI原则持续审查发展框架,并与社会伙伴协作。若评估模型CCL对公共安全构成未缓解实质风险,旨在与政府机构共享信息促进AI安全发展。最新框架指出多个需进一步研究领域,期待与研究界、企业及政府合作。

开放、迭代和协作方法有助于建立评估未来AI模型安全的通用标准和最佳实践,同时确保人类受益。首尔前沿AI安全承诺是此集体努力的重要一步,希望更新版前沿安全框架进一步推动此进展。面对AGI,需应对关键能力阈值和缓解措施等重大问题,这需要政府等更广泛社会的参与。

*关键能力定义:通过研究模型在高风险域造成严重危害的路径,确定模型导致此类危害所需最小能力水平,称为“关键能力等级”(CCLs),指导评估和缓解方法。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计