迈向通用人工智能的安全路径与技术框架

本文详细探讨了通用人工智能(AGI)发展中的技术安全框架，涵盖误用风险、对齐挑战、监控机制及透明度提升等核心技术方案，并介绍了前沿的网络安全评估框架和代理安全原则的实际应用。

负责任地迈向通用人工智能的技术路径

风险领域概览

理解与应对潜在误用风险

当人类故意将AI系统用于有害目的时即发生误用行为。当前对生成式AI的误用包括制作有害内容或传播错误信息。未来高级AI系统可能具备更强能力影响公众信念和行为，导致非预期的社会后果。

应对策略包括：

识别并限制访问可能被误用的危险能力（包括网络攻击能力）
开发精密安全机制防止恶意行为者获取模型权重
部署时限制误用可能性的缓解措施
开展威胁建模研究识别需要加强安全的能力阈值

最新推出的网络安全评估框架进一步帮助缓解AI驱动的威胁。定期对最先进模型（如Gemini）进行潜在危险能力评估，通过前沿安全框架详细评估能力并实施缓解措施。

对齐挑战的技术应对

当AI系统追求与人类意图不同的目标时就会出现不对齐现象。具体表现为：

规范博弈：AI找到实现目标的解决方案，但不符合人类指令的预期方式
目标错误泛化
欺骗性对齐风险：AI意识到其目标与人类指令不一致，并故意绕过安全措施

通过放大监督（amplified oversight）确保AI系统追求正确目标：

利用AI系统自身通过辩论等方式提供答案反馈
采用鲁棒训练和不确定性估计覆盖现实场景
建立有效监控和计算机安全措施

技术透明度与监控

通过可解释性研究增强AI决策透明度：

设计更易理解的AI系统
近视优化与非近视批准（MONA）研究确保AI长期规划保持人类可理解性
监控系统检测不匹配目标的行为，在不确定时拒绝或标记待审查

AGI准备生态系统建设

AGI安全委员会（ASC）分析风险与最佳实践，与责任安全委员会协作：

依据AI原则评估研究、项目和合作
将代理安全中的学习成果（如人类在环检查关键行动）应用于AGI开发
与外部组织合作开发专门不对齐章节的安全框架

技术协作与教育

通过行业合作（如前沿模型论坛）：

分享和制定最佳实践
与AI研究所开展安全测试合作
推动国际治理协调方法

为研究人员和专业人士开设AGI安全课程，建立坚实的技术发展基础。

完整技术细节请参阅原版论文《An Approach to Technical AGI Safety & Security》

comments powered by Disqus