失控的人工智能:科技巨头在安全上失败(第一部分)
网络安全
作者:Dario Ferrero(VerbaniaNotizie.it) 一份独立报告揭示,主要科技公司尚未准备好管理通用人工智能的风险。
想象一下制造没有刹车的汽车,或者设计没有安全系统的飞机。这听起来很荒谬,对吧?然而,根据未来生命研究所最新发布的报告,这正是世界领先科技公司在人工智能领域所做的事情。
2025年AI安全指数评估了七家最重要的先进人工智能开发公司,结果令人震惊:表现最好的公司仅获得C+,其他公司得分更差。这些公司包括OpenAI(ChatGPT的创造者)、谷歌DeepMind、Meta(Facebook)、xAI(埃隆·马斯克的公司)等,它们都在竞相开发所谓的“通用人工智能”(AGI)——能够像人类一样推理和解决复杂问题,但可能更快速、更强大的系统。
判决:“根本上未准备好”
数字说明了一切。创建Claude的Anthropic公司以C+的总分获得最高分。其他六家公司——谷歌DeepMind、Meta、OpenAI、xAI、智谱AI和深度求索——得分更低,其中智谱AI和深度求索表现最差。
但这分数到底意味着什么?要理解它,我们必须先解释什么是通用人工智能(AGI)。虽然当前的系统如ChatGPT或Gemini专注于特定任务(对话、翻译、写作),但AGI将代表下一步:一种能够像人类智能一样在任何领域理解、学习和应用知识的人工智能。
问题是,所有被评估的公司都声称打算构建通用人工智能,但只有Anthropic、谷歌DeepMind和OpenAI阐述了确保AGI与人类价值观保持一致的策略。即使这些策略也被专家认为不足。
方法论:分数如何评定
要理解情况的严重性,重要的是知道这些分数是如何评定的。未来生命研究所开发了一个严格的评估系统,超越公开声明,检查这些公司的具体实践。
33个安全指标
评估基于33个具体指标,衡量负责任AI开发的不同方面。这些指标不是随机选择的,而是代表了国际科学界确定的安全人工智能开发最佳实践。
指标包括记录的安全政策存在、专门安全团队的存在、风险沟通的透明度、发布前评估风险的能力、持续监控系统的实施以及员工举报机制的存在。
六个关键领域
33个指标组织成六个基本领域,涵盖人工智能安全不同但相互关联的方面。
第一个领域涉及存在性安全,评估公司是否有策略预防可能威胁人类存在的风险,包括评估系统何时可能变得过于强大而无法控制的能力。
第二个领域检查当前危害,分析公司如何解决现有AI风险,如算法偏见、错误信息或技术滥用。
第三个领域是透明度,评估公司对其方法、风险和限制的开放程度,包括与独立研究人员分享信息的意愿。
第四个领域涉及治理,检查公司的组织结构,包括独立监督的存在和明确的安全问题决策过程。
第五个领域评估社区参与,检查公司是否与外部研究人员、安全组织和更广泛的科学界合作。
最后,第六个领域检查监管准备度,验证公司是否准备好与监管机构合作并支持适当法规的发展。
同行评审过程
数据在2025年3月至6月期间收集,结合公开材料和公司对针对性问卷的回复。然而,只有两家公司(xAI和智谱AI)完全完成了问卷,突显了行业不合作的可忧水平。
分数由七名独立专家小组评定,包括加州大学伯克利分校的Stuart Russell和图灵奖得主Yoshua Bengio等知名人士。该小组包括既关注AI存在性风险的专家,也关注短期危害如算法偏见和有毒语言的专家。
评估过程设计得尽可能客观,有标准化标准和对每家公司的多次独立评审。
专家的警报呼声
报告的结论严厉。AI安全领域世界领先专家之一Stuart Russell在IEEE Spectrum采访中表示:“AI安全指数项目的结果表明,尽管AI公司有很多以‘安全’名义进行的活动,但它们尚未非常有效。特别是,当前的活动都没有提供任何类型的安全定量保证。”
Russell补充了一个更令人担忧的考虑:“当前的技术方向可能永远无法支持必要的安全保证,在这种情况下,它确实是一个死胡同。”
AI事件的全球景观
要理解问题的紧迫性,必须查看已经发生的人工智能故障数据。记录的事件数量呈指数级增长,后果变得越来越严重。
2024年的惊人数字
根据AI事件数据库,2024年AI相关事件增加到233起——创历史新高,比2023年增长56.4%。这些不是小错误或可忽略的技术问题,而是对个人、公司和社会造成真实伤害的事件。
故障的象征性案例
特斯拉自动驾驶系统显示了“自动化偏见”问题,即用户过度信任自动化系统的倾向。NHTSA(国家公路交通安全管理局)已对多达240万辆特斯拉车辆展开安全调查,包括一起在使用全自动驾驶系统时发生的行人致命事故。这是否意味着这家德克萨斯公司有错?不。它是一个帮助系统,一种驾驶辅助。谁坐在方向盘后都知道,或应该知道。如果司机在睡觉、看智能手机、吃东西或做其他事情,那是他们的错,不是电子设备的错。
一个重大案例涉及一名Uber Eats司机,他在面部识别系统未能正确识别后被解雇。司机认为该技术对非白人准确性较低,使他们处于不利地位。据我们了解,Uber实施了一个“人工”验证系统,涉及至少两名专家审查后才进行解雇。
在医疗保健领域,医院使用的AI系统提供了错误诊断,导致不当护理。一个记录在案的案例中,癌症筛查算法在70%的案例中产生假阳性,造成情感困扰和不必要的医疗成本。
在2024年选举期间,几个AI系统生成了误导性政治内容,包括候选人在妥协情境中的深度伪造图像。
人力和经济成本
这些事件不仅仅是统计数据。每个数字背后都有一个因歧视性算法而失去工作的人,一个因故障自动驾驶系统而遭受车祸的家庭,或一个收到错误诊断的患者。因此,逻辑上预期会有重大的经济损失,目前似乎没有人估计。
“竞次”问题
MIT物理学家、未来生命研究所主席Max Tegmark解释了报告的目标:“目的不是羞辱任何人,而是为公司提供改进的激励。”Tegmark希望公司高管将此指数视为大学看待美国新闻与世界报道排名的方式:他们可能不喜欢被评估,但如果分数公开并吸引关注,他们会感到被迫在明年做得更好。
报告中出现的最令人担忧的方面之一是Tegmark所谓的“竞次”。“我觉得这些公司的领导者陷入了一个他们都无法逃脱的竞次,无论他们多么好心,”他解释说。今天,公司不愿意为安全测试放慢速度,因为他们不希望竞争对手抢先进入市场。
囚徒困境动态
这种情况代表了应用于技术的经典“囚徒困境”。每家公司都知道如果他们都安全负责任地开发AI会更好,但没有人想第一个放慢速度,担心会失去竞争优势。
结果是所有公司最终都尽可能快地冲刺,为速度牺牲安全。就像几家汽车制造商决定移除刹车以使汽车更轻更快,希望抢先进入市场。
竞争的乘数效应
Tegmark于2014年共同创立未来生命研究所,目标是减少变革性技术的存在性风险,他将学术生涯的大部分时间用于理解物理宇宙。但近年来,他专注于人工智能的风险,成为AI安全辩论中最权威的声音之一。
竞争压力不仅推动公司在完全安全之前发布产品,还创造了乘数效应:如果一家公司削减安全成本以更早发布,其他公司感到被迫做同样的事情以保持竞争力。
这种恶性机制意味着,即使个别高管或研究人员真正关心安全,竞争压力也推动他们优先考虑开发速度而非谨慎。这是一个需要系统解决方案的系统性问题。
公司逐分析
Anthropic:“班级最佳”但仍不足
Anthropic获得最佳总分(C+总体),在当前危害工作中获得唯一的B-。报告指出,Anthropic的模型在主要安全基准测试中得分最高。公司还有“负责任扩展政策”,要求评估模型造成灾难性伤害的潜力,并不部署被认为风险过高的模型。
Anthropic因其积极的AI对齐研究、记录和公开的安全政策、与外部研究人员的合作以及关于风险和限制的相对透明度而脱颖而出。然而,即使Anthropic也收到了改进建议,包括发布全面的举报政策和对其风险评估方法更加透明。即使“最佳”公司总体仅获得C+的事实说明了行业整体情况的严重性。
OpenAI:能力丧失和使命漂移
OpenAI,这家通过ChatGPT使AI主流的公司,受到了特别严厉的批评。据《时代》杂志报道,建议包括重建失去的安全团队能力,并展示对OpenAI原始使命的重新承诺。
OpenAI成立于2015年,明确使命是“确保通用人工智能造福全人类”。然而,报告表明公司已偏离这一原始使命,更关注商业化而非安全。
“失去的安全团队能力”指的是报告发布前几个月几位安全研究人员从OpenAI高调辞职。其中包括一些AI对齐领域的领先专家,如Ilya Sutskever(联合创始人兼前首席科学家)和Jan Leike(前超级对齐团队负责人)。
报告还强调了OpenAI治理中的问题,包括2023年11月CEO Sam Altman有争议的免职和复职,这引发了关于公司稳定性和方向的疑问。
谷歌DeepMind:协调不足
谷歌DeepMind因DeepMind安全团队与谷歌政策团队之间协调不足而受到具体批评。只有谷歌DeepMind回应了评论请求,提供声明称:“虽然指数包含了谷歌DeepMind的一些AI安全努力,但我们全面的AI安全方法超出了所捕获的内容。”
谷歌DeepMind是DeepMind(2014年被谷歌收购)和Google Brain(谷歌内部AI研究团队)合并的结果。这次合并于2023年完成,旨在创造协同效应,但报告表明它也造成了协调问题。
DeepMind以科学研究享有盛誉,取得了如AlphaGo(击败世界围棋冠军)和AlphaFold(解决蛋白质折叠问题)等突破。然而,报告表明这种技术卓越尚未转化为安全领导力。
Meta:重大问题但不是最差
Meta受到严厉批评,但不是被评估公司中最差的。建议包括显著增加技术安全研究的投资,特别是保护开放权重模型。
“开放权重模型”的引用特别重要:Meta是唯一发布模型“权重”(决定模型行为的参数)的主要公司,使模型免费供任何人使用或修改。
这种策略有显著优势:允许分布式创新,减少权力集中在少数公司手中,并促进学术研究。但它也带来独特风险:一旦发布,如果发现问题,模型无法“召回”,无法控制它们的使用方式,并且可能被修改用于恶意目的。
Meta发布了其Llama模型的几个版本,包括Llama 2和Llama 3。虽然这些发布加速了研究和创新,但也引发了安全担忧。报告建议Meta在发布模型前实施更强大的保护。
xAI:严重文化问题
埃隆·马斯克的公司xAI不仅因安全得分受到特别严厉的批评,还因文化问题。建议包括在下次发布前解决极端越狱漏洞,并开发全面的AI安全框架。
“越狱”指的是绕过AI系统安全保护的技术,说服它们产生有害或不适当的内容。xAI对这些技术有“极端漏洞”的事实表明其安全系统特别薄弱。
报告表明xAI的问题可能与其文化环境有关。埃隆·马斯克经常对法规表示怀疑,并推广“快速行动、打破陈规”的方法,这可能与安全开发AI不兼容。
xAI的AI系统称为Grok,设计为“最大程度寻求真理”且比其他系统审查更少。然而,这种方法在Grok产生有问题或误导内容时引发了争议。
智谱AI和深度求索:表现最差
两家中国公司智谱AI和深度求索在评估中得分最低。两家公司都收到建议,要求开发和发布更全面的AI安全框架,并大幅增加风险评估努力。
中国公司在不同的监管环境中运营,其中AI安全主要从国家安全和社会稳定的角度看待,而非全球存在性安全。
智谱AI以其ChatGLM模型闻名,并获得了中国政府的重大投资。然而,报告表明公司在安全研究上投资极少。
深度求索是一家较小但有雄心的公司,试图与西方巨头竞争。报告表明公司为开发速度牺牲了安全。
未能解决存在性风险
也许报告中最令人担忧的方面是所有七家公司在存在性安全策略上得分特别低。这意味着,尽管所有公司都声称打算构建通用人工智能系统,但没有一个有可信的计划确保这些系统保持在人类控制之下。
“存在性风险”意味着什么
在深入探讨这个问题之前,重要的是澄清“存在性风险”的含义。存在性风险是可能导致人类灭绝、永久大幅减少人类潜力或使文明进步不可能的事件。
在人工智能背景下,存在性风险可能发生,如果我们创建的系统变得比我们更智能但不分享我们的价值观,决定人类是其目标的障碍,或在我们可以关闭它们之前逃脱我们的控制。
对齐问题
正如Tegmark解释:“事实是没有人知道如何控制一个比我们智能得多的新物种。评审小组觉得即使有某种初始策略的公司,它也不足够。”
对齐问题基本上是:我们如何确保一个超级智能系统会做我们想让它做的事,而不是它认为最好的事?
想象一下向一个5岁孩子解释如何运营跨国公司。即使孩子想帮忙,理解的差异如此之大,以至于他们不可能理解你的意图并相应行动。现在想象你是孩子,跨国公司由超级智能AI运营。
当前方法及其局限性
公司正在使用各种方法尝试解决对齐问题。从人类反馈中强化学习(RLHF)涉及使用人类反馈训练AI系统以强化理想行为。然而,这种方法有显著局限性:难以扩展到非常复杂的系统,人类可能不理解其评估的后果,并且可能对比人类更智能的系统无效。
Anthropic开发的宪法AI寻求教AI系统遵循原则“宪法”。但问题仍然是如何定义这些原则以及如何确保它们被遵循。
机械可解释性寻求理解AI系统内部如何工作。然而,现代系统如此复杂,以至于理解其内部运作极其困难。
[待续第二部分]