失控的人工智能：大型科技公司在安全方面失败（第一部分）

网络安全

作者：Dario Ferrero（VerbaniaNotizie.it） 一份独立报告揭示，主要科技公司尚未准备好管理通用人工智能的风险。

想象一下制造没有刹车的汽车，或者设计没有安全系统的飞机。这听起来很荒谬，对吧？然而，根据未来生命研究所最新发布的报告，这正是世界领先科技公司在人工智能领域所做的事情。

《2025年人工智能安全指数》评估了七家最重要的先进人工智能开发公司，结果令人震惊：表现最好的公司仅获得C+的评分，而其他公司的评分更差。这些公司包括OpenAI（ChatGPT的创造者）、Google DeepMind、Meta（Facebook）、xAI（埃隆·马斯克的公司）等，它们都在竞相开发所谓的"通用人工智能"（AGI）——能够像人类一样推理和解决复杂问题，但可能更快、更强大的系统。

判决：“基本上未准备好”

数字说明了一切。创建Claude的Anthropic公司以C+的总分获得最高评分。其他六家公司——Google DeepMind、Meta、OpenAI、xAI、智谱AI和深度求索——得分较低，其中智谱AI和深度求索表现最差。

但这个评分到底意味着什么？要理解它，我们必须首先解释什么是通用人工智能（AGI）。虽然当前的系统如ChatGPT或Gemini专注于特定任务（对话、翻译、写作），但AGI将代表下一步：一种能够像人类智能一样在任何领域理解、学习和应用知识的人工智能。

问题在于，所有被评估的公司都表示有意构建通用人工智能，但只有Anthropic、Google DeepMind和OpenAI阐述了确保AGI与人类价值观保持一致的战略。即使这些战略也被专家认为不足。

![来自futureoflife.org的图片]

方法论：评分如何分配

要理解情况的严重性，重要的是了解这些评分是如何分配的。未来生命研究所开发了一个严格的评估系统，超越公开声明，检查这些公司的具体实践。

33个安全指标

评估基于33个具体指标，衡量负责任AI开发的不同方面。这些指标不是随机选择的，而是代表了国际科学界确定的安全人工智能开发最佳实践。

指标包括记录的安全政策存在、专门安全团队的存在、风险沟通的透明度、发布前评估风险的能力、持续监控系统的实施，以及员工举报机制的存在。

六个关键领域

33个指标组织成六个基本领域，涵盖人工智能安全的不同但相互关联的方面。

第一个领域涉及存在性安全，评估公司是否有策略来预防可能威胁人类生存的风险，包括评估系统何时可能变得过于强大而无法控制的能力。

第二个领域检查当前危害，分析公司如何应对现有AI风险，如算法偏见、错误信息或技术滥用。

第三个领域是透明度，评估公司对其方法、风险和限制的开放程度，包括与独立研究人员分享信息的意愿。

第四个领域涉及治理，检查公司的组织结构，包括独立监督的存在和安全问题的明确决策过程。

第五个领域评估社区参与，检查公司是否与外部研究人员、安全组织和更广泛的科学界合作。

最后，第六个领域检查监管准备情况，验证公司是否准备好与监管机构合作并支持适当法规的制定。

同行评审过程

数据收集于2025年3月至6月之间，结合了公开可用材料和对公司发送的针对性问卷的回复。然而，只有两家公司（xAI和智谱AI）完全完成了问卷，突显了行业不合作程度的担忧。

评分由七名独立专家组成的小组分配，包括加州大学伯克利分校的Stuart Russell和图灵奖得主Yoshua Bengio等知名人士。该小组包括既关注AI存在性风险的专家，也关注短期危害如算法偏见和有毒语言的专家。

评估过程设计得尽可能客观，具有标准化标准和对每家公司的多次独立评审。

专家的警报呼声

报告的结论严厉。世界领先的AI安全专家之一Stuart Russell在接受IEEE Spectrum采访时表示：“AI安全指数项目的结果表明，虽然AI公司中有很多以’安全’名义进行的活动，但它们还不是很有效。特别是，当前的活动都没有提供任何形式的安全定量保证。”

Russell补充了一个更令人担忧的考虑：“当前的技术方向可能永远无法支持必要的安全保证，在这种情况下，它确实是一个死胡同。”

AI事件的全球景观

要理解问题的紧迫性，必须查看已经发生的人工智能故障数据。记录的事件数量呈指数级增长，后果变得越来越严重。

2024年的惊人数字

根据AI事件数据库，2024年AI相关事件数量增加到233起——创历史新高，比2023年增长56.4%。这些不是小错误或可忽略的技术问题，而是对个人、公司和社会造成真实伤害的事件。

故障的象征性案例

特斯拉自动驾驶系统显示了"自动化偏见"问题，即用户过度信任自动化系统的倾向。NHTSA（国家公路交通安全管理局）已对多达240万辆特斯拉车辆展开安全调查，包括一起在完全自动驾驶系统激活时与行人的致命事故。这是否意味着这家德克萨斯州公司有过错？不。它是一个辅助系统，驾驶辅助。谁坐在方向盘后都知道，或应该知道。如果司机在睡觉、看智能手机、吃东西或做其他事情，那是他们的过错，而不是电子设备的过错。

一个重要案例涉及一名Uber Eats司机，他在面部识别系统未能正确识别后被解雇。司机认为该技术对非白人准确性较低，使他们处于不利地位。据我们了解，Uber实施了一个"人工"验证系统，涉及至少两名专家审查后才进行解雇。

在医疗保健领域，医院使用的AI系统提供了错误诊断，导致不当护理。一个记录在案的案例中，癌症筛查算法在70%的案例中产生假阳性，造成情感困扰和不必要的医疗成本。

在2024年选举期间，几个AI系统生成了误导性政治内容，包括候选人在妥协情况下的深度伪造图像。

人力和经济成本

这些事件不仅仅是统计数据。每个数字背后都是因歧视性算法而失去工作的人、因故障自动驾驶系统而遭受车祸的家庭，或收到错误诊断的患者。因此，逻辑上预期会有重大的经济损失，目前似乎没有人估计过。

“竞相降低标准"的问题

MIT物理学家、未来生命研究所主席Max Tegmark解释了报告的目标：“目的不是羞辱任何人，而是为公司提供改进的激励。“Tegmark希望公司高管将此指数视为大学看待美国新闻与世界报道排名的方式：他们可能不喜欢被评估，但如果评分公开并吸引关注，他们会感到明年必须做得更好。

报告中出现的最令人担忧的方面之一是Tegmark所谓的"竞相降低标准”。“我觉得这些公司的领导者陷入了一个竞相降低标准的困境，无论他们多么善良，都无法逃脱，“他解释说。如今，公司不愿意为安全测试放慢速度，因为他们不希望竞争对手抢先进入市场。

囚徒困境动态

这种情况代表了应用于技术的经典"囚徒困境”。每家公司都知道，如果他们都安全负责任地开发AI会更好，但没有人愿意第一个放慢速度，担心会失去竞争优势。

结果是所有公司最终都尽可能快地冲刺，为速度牺牲安全。就好像几家汽车制造商决定移除刹车以使汽车更轻更快，希望率先进入市场。

竞争的乘数效应

Tegmark于2014年共同创立未来生命研究所，目标是减少变革性技术带来的存在性风险，他将学术生涯的大部分时间用于理解物理宇宙。但近年来，他专注于人工智能的风险，成为AI安全辩论中最权威的声音之一。

竞争压力不仅推动公司在完全安全之前发布产品，还创造了乘数效应：如果一家公司削减安全成本以更早发布，其他公司感到必须做同样的事情以保持竞争力。

这种恶性机制意味着，即使个别高管或研究人员真正关心安全，竞争压力也推动他们优先考虑开发速度而非谨慎。这是一个需要系统解决方案的系统性问题。

公司逐项分析

Anthropic：“班级最佳"但仍不足

Anthropic获得最佳总分（C+总体），在当前危害方面获得唯一的B-。报告指出，Anthropic的模型在主要安全基准测试中得分最高。公司还有一个"负责任扩展政策”，要求评估模型造成灾难性危害的潜力，并不部署被认为风险过高的模型。

Anthropic因其积极的AI对齐研究、记录和公开的安全政策、与外部研究人员的合作以及关于风险和限制的相对透明度而脱颖而出。然而，即使Anthropic也收到了改进建议，包括发布全面的举报政策，并对其风险评估方法更加透明。即使"最佳"公司总体仅获得C+的事实说明了行业整体情况的严重性。

OpenAI：能力丧失和使命漂移

OpenAI，这家通过ChatGPT使AI主流的公司，受到了特别严厉的批评。据《时代》杂志报道，建议包括重建失去的安全团队能力，并展示对OpenAI原始使命的新承诺。

OpenAI成立于2015年，明确使命是"确保通用人工智能造福全人类”。然而，报告表明公司已偏离这一原始使命，更关注商业化而非安全。

“失去安全团队能力"指的是在报告发布前的几个月里，几位安全研究人员从OpenAI高调辞职。其中包括一些AI对齐的领先专家，如Ilya Sutskever（联合创始人兼前首席科学家）和Jan Leike（前超级对齐团队负责人）。

报告还强调了OpenAI治理中的问题，包括2023年11月有争议地移除和恢复CEO Sam Altman，这引发了关于公司稳定性和方向的疑问。

Google DeepMind：协调不足

Google DeepMind因DeepMind安全团队与Google政策团队之间协调不足而受到具体批评。只有Google DeepMind回应了评论请求，提供声明称：“虽然指数包含了Google DeepMind的一些AI安全努力，但我们全面的AI安全方法超出了所捕获的范围。”

Google DeepMind是DeepMind（2014年被Google收购）和Google Brain（Google内部AI研究团队）合并的结果。这次合并于2023年完成，旨在创造协同效应，但报告表明它也造成了协调问题。

DeepMind以科学研究享有盛誉，取得了如AlphaGo（击败世界围棋冠军）和AlphaFold（解决蛋白质折叠问题）等突破。然而，报告表明这种技术卓越并未转化为安全领导力。

Meta：重大问题但不是最差

Meta受到严厉批评，但不是被评估公司中最差的。建议包括显著增加技术安全研究的投资，特别是保护开放权重模型。

“开放权重模型"的参考特别重要：Meta是唯一发布模型"权重”（决定模型行为的参数）的主要公司，使模型免费供任何人使用或修改。

这一策略具有显著优势：允许分布式创新，减少权力集中在少数公司手中，并促进学术研究。但它也带来独特风险：一旦发布，如果发现问题，模型无法"召回”，无法控制它们的使用方式，并且可能被修改用于恶意目的。

Meta发布了其Llama模型的多个版本，包括Llama 2和Llama 3。虽然这些发布加速了研究和创新，但也引发了安全担忧。报告建议Meta在发布模型前实施更强大的保护措施。

xAI：严重的文化问题

埃隆·马斯克的公司xAI不仅因其安全评分，还因文化问题受到特别严厉的批评。建议包括在下次发布前解决极端越狱漏洞，并开发全面的AI安全框架。

“越狱"指的是绕过AI系统安全保护的技术，说服它们产生有害或不适当的内容。xAI对这些技术有"极端漏洞"的事实表明其安全系统特别薄弱。

报告表明xAI的问题可能与其文化环境有关。埃隆·马斯克经常对法规表示怀疑，并推广"快速行动、打破陈规"的方法，这可能与安全开发AI不兼容。

xAI的AI系统称为Grok，设计为"最大限度地寻求真理”，比其他系统审查更少。然而，这种方法在Grok产生有问题或误导性内容时引发了争议。

智谱AI和深度求索：表现最差

两家中国公司，智谱AI和深度求索，在评估中得分最低。两家公司都收到建议，要求开发和发布更全面的AI安全框架，并大幅增加风险评估努力。

中国公司在不同的监管环境中运营，其中AI安全主要从国家安全和社会稳定的角度看待，而非全球存在性安全。

智谱AI以其ChatGLM模型闻名，并获得了中国政府的重大投资。然而，报告表明公司在安全研究上投资极少。

深度求索是一家较小但有雄心的公司，试图与西方巨头竞争。报告表明公司为开发速度牺牲了安全。

未能解决存在性风险

也许报告中最令人担忧的方面是，所有七家公司在存在性安全策略上得分特别低。这意味着，尽管所有这些公司都表示有意构建通用人工智能系统，但没有一家有可信的计划来确保这些系统保持在人类控制之下。

“存在性风险"意味着什么

在深入探讨这个问题之前，重要的是澄清什么是"存在性风险”。存在性风险是可能导致人类灭绝、永久大幅减少人类潜力或使文明进步不可能的事件。

在人工智能背景下，存在性风险可能发生，如果我们创建的系统变得比我们更智能但不分享我们的价值观，决定人类是其目标的障碍，或者在我们能够关闭它们之前逃脱我们的控制。

对齐问题

正如Tegmark解释：“事实是，没有人知道如何控制一个比我们智能得多的新物种。评审小组认为，即使那些有某种形式初始策略的公司，它也不足。”

对齐问题基本上是：我们如何确保一个超级智能系统会做我们想要它做的事情，而不是它认为最好的事情？

想象一下向一个5岁孩子解释如何运营跨国公司。即使孩子想帮忙，理解的差异如此之大，以至于他们不可能理解你的意图并相应行动。现在想象你是孩子，跨国公司由超级智能AI运营。

当前方法及其局限性

公司正在使用各种方法尝试解决对齐问题。人类反馈强化学习（RLHF）涉及使用人类反馈训练AI系统以强化理想行为。然而，这种方法有显著局限性：难以扩展到非常复杂的系统，人类可能不理解其评估的后果，并且可能对比人类更智能的系统无效。

Anthropic开发的宪法AI寻求教AI系统遵循原则"宪法”。但问题仍然是如何定义这些原则以及如何确保它们被遵循。

机械可解释性寻求理解AI系统内部如何工作。然而，现代系统如此复杂，以至于理解其内部运作极其困难。

[待续第二部分]