AI安全报告敲响警钟:顶级实验室仅获“及格线”成绩,暴露行业安全隐忧
由非营利组织未来生命研究所(Future of Life Institute, FLI)进行的一项新研究发现,全球顶级的AI实验室在努力防止该技术出现最坏可能结果方面,并未取得高分。
该研究召集了八位知名的AI专家,对同样数量的科技开发者(谷歌DeepMind、Anthropic、OpenAI、Meta、xAI、DeepSeek、Z.ai和阿里巴巴云)的安全政策进行了评估。
每家公司的评级依据六项标准,包括“当前危害”和“治理与问责”。评估基于公开可用的材料(如政策文件和行业报告),以及一份由八家公司中五家完成的调查问卷。
Anthropic、谷歌DeepMind和OpenAI得分最高,但即使它们也只获得了在学术环境中勉强算作及格的成绩:分别为C+、C+和C。其他五家得分更低:均为D,除了获得最低分D-的阿里巴巴云。
“即使是表现最出色的公司也缺乏这种强大系统所要求的具体保障措施、独立监督和可信的长期风险管理策略,而行业其余部分则在基本透明度和治理义务方面远远落后,”FLI在一份总结其发现的报告中写道。“能力与安全之间的差距日益扩大,使得该行业在结构上对其正在积极创造的风险毫无准备。”
这对于一些行业使用最广泛、最强大的AI模型来说,是一份黯淡的成绩单。在科技专家之间竞争迅速升级之际,这一结果也可能对其他公司施加压力,促使其制定和实施有效的安全措施。
生存风险?
这项新研究最令人担忧的发现是,在“生存安全”类别中,所有公司都得分惨淡。FLI将“生存安全”定义为“公司为管理来自未来可能匹配或超过人类能力的AI系统的极端风险所做的准备,包括关于对齐和控制的既定策略与研究”。
AI是否会威胁人类生存,其程度堪比全球大流行或核末日,这仍然是一个激烈争论的问题。所谓的AI“繁荣论者”倾向于将此类担忧视为危言耸听,并认为AI的社会经济效益超过了潜在的负面影响。而他们的“末日论者”对手,则倾向于警告该技术可能摆脱人类控制,并以难以预测的方式摧毁我们。
近期科技行业将“超级智能”作为营销流行语和技术目标,加剧了关于AI影响的辩论。你可以将此趋势视为人工智能通用(AGI)——一个能在任何认知任务上媲美人脑的AI系统——的超级强化版:一台比我们自己大脑先进得令人难以置信的计算机,它将存在于一个完全不同、分类上更高的智力水平上,就像你自己的智力与线虫之间的差异。
像Meta和微软这样的公司已明确表示,他们希望成为首个构建超级智能的企业。然而,当这项技术体现在面向消费者的产品中时,它会是什么样子还完全不清楚。FLI研究的目的在于提请人们注意,在没有有效安全协议来控制如此先进的系统失控的情况下,各公司正在竞相构建超级智能。
“我相信,阳光是最好的消毒剂,通过真正揭示公司在做什么,我们给了它们做得更好的动力,给了政府更好监管它们的动力,从而真正增加了我们将拥有一个与AI共存的良好未来的机会,”FLI主席、麻省理工学院物理学家Max Tegmark在一个总结新研究发现的YouTube视频中说道。
该非营利组织还在9月发表了一份声明,由AI“教父”Geoffrey Hinton和Yoshua Bengio以及其他知名科技界人士签署,呼吁在全行业范围内暂停超级智能的开发,直到行业领导者和政策制定者能够规划出一条安全的前进道路。
前进方向
大体而言,FLI对研究中包含的八家公司传递的信息是相同的:是时候超越仅仅空谈需要有效的AI护栏,并要“制定具体的、基于证据的保障措施”来防止最坏情况了。
该研究还根据每家公司的具体成绩,为八家公司提供了具体建议。例如,这是对在所有六个类别中得分最高的Anthropic给出的建议:“通过用量化的、与风险挂钩的阈值取代定性的、定义松散的标准,并通过提供更清晰的证据和文件,证明部署和安全保障措施能够有效减轻它们所针对的风险,从而使阈值和保障措施更加具体和可衡量。”
但这些建议也仅仅是建议。在缺乏全面的联邦监督的情况下,很难(或许不可能)让所有科技公司都遵守同样的安全标准。
目前围绕医疗和航空等行业存在的这类监管护栏,是为了确保制造商生产对人类安全的产品。例如,在一种新的药品可以合法上市销售之前,药物开发商必须按照食品药品监督管理局的要求,完成多阶段临床试验过程。
对于AI的开发,没有这样的联邦监管机构。科技行业更像是一个蛮荒的西部,保护客户的责任(或不保护)主要落在公司自己身上,尽管一些州已经实施了它们自己的法规。
然而,公众对AI在社会和个人层面的负面影响的认识正在增长:OpenAI和谷歌目前都卷入了诉讼,指控它们的AI系统导致了自杀事件,而据报道,Anthropic的Claude在9月被用于代表国家支持的中国黑客自动化网络攻击。
这些负面事件的后果是,即使在缺乏强有力的联邦监督的情况下,鲁莽地开发AI工具——在没有同等复杂的安全机制的情况下发布聊天机器人的新版本——也可能在AI行业中变得如此忌讳,以至于开发者有动力认真对待它。
但目前看来,速度优先于安全似乎仍是当前的指导逻辑。
给用户的启示
AI行业缺乏联邦监管,加上科技开发者之间竞相构建更强大的系统,也意味着用户应该教育自己,了解这项技术如何对他们产生负面影响。
一些早期证据表明,长期使用AI聊天机器人可能会扭曲一个人的世界观,削弱批判性思维能力,并造成其他心理伤害。与此同时,AI工具的激增及其与数百万人已经在使用的现有系统的整合,使得这项技术越来越难以避免。
虽然FLI的研究可能不会突然导致科技开发者对AI安全的方法发生广泛改变,但它确实提供了一个窗口,让我们了解哪些公司提供了最安全的工具,以及这些工具在特定领域内如何相互比较。
对于不仅对AI潜在的生存危害感兴趣,而且对它们给个体用户带来的风险也感兴趣的人来说,我们建议阅读完整报告中的附录A,以详细了解八家公司在特定安全措施方面的表现。