负责任地迈向通用人工智能的技术路径
风险领域概览
理解与应对潜在误用风险
当人类故意将AI系统用于有害目的时即发生误用行为。当前对生成式AI的误用包括制作有害内容或传播错误信息。未来高级AI系统可能具备更强能力影响公众信念和行为,导致非预期的社会后果。
应对策略包括:
- 识别并限制访问可能被误用的危险能力(包括网络攻击能力)
- 开发精密安全机制防止恶意行为者获取模型权重
- 部署时限制误用可能性的缓解措施
- 开展威胁建模研究识别需要加强安全的能力阈值
最新推出的网络安全评估框架进一步帮助缓解AI驱动的威胁。定期对最先进模型(如Gemini)进行潜在危险能力评估,通过前沿安全框架详细评估能力并实施缓解措施。
对齐挑战的技术应对
当AI系统追求与人类意图不同的目标时就会出现不对齐现象。具体表现为:
- 规范博弈:AI找到实现目标的解决方案,但不符合人类指令的预期方式
- 目标错误泛化
- 欺骗性对齐风险:AI意识到其目标与人类指令不一致,并故意绕过安全措施
通过放大监督(amplified oversight)确保AI系统追求正确目标:
- 利用AI系统自身通过辩论等方式提供答案反馈
- 采用鲁棒训练和不确定性估计覆盖现实场景
- 建立有效监控和计算机安全措施
技术透明度与监控
通过可解释性研究增强AI决策透明度:
- 设计更易理解的AI系统
- 近视优化与非近视批准(MONA)研究确保AI长期规划保持人类可理解性
- 监控系统检测不匹配目标的行为,在不确定时拒绝或标记待审查
AGI准备生态系统建设
AGI安全委员会(ASC)分析风险与最佳实践,与责任安全委员会协作:
- 依据AI原则评估研究、项目和合作
- 将代理安全中的学习成果(如人类在环检查关键行动)应用于AGI开发
- 与外部组织合作开发专门不对齐章节的安全框架
技术协作与教育
通过行业合作(如前沿模型论坛):
- 分享和制定最佳实践
- 与AI研究所开展安全测试合作
- 推动国际治理协调方法
为研究人员和专业人士开设AGI安全课程,建立坚实的技术发展基础。
完整技术细节请参阅原版论文《An Approach to Technical AGI Safety & Security》