有人在网上说错了（AGI末日版）

过去几年，出现了一波关于LLM获得意识然后突然试图消灭人类的狂热言论。这种狂热，通常以“LessWrong”论坛典型的伪贝叶斯科学语言表达，已经渗透到媒体中，并从那里进入政治领域，影响了立法。

这种狂热源于一种说法，即突然出现的AGI会对人类构成生存风险，然后通过一系列无法阻止的快速步骤消灭人类。其中大部分是完全错误的，我将尝试在本文中收集我对这个话题的看法——重点关注“快速崛起场景”。

我之前遇到过关于AI进展的看似非理性的奇怪观点，并在2014年、2016年和2017年发表了一些批评性推文，针对我称之为“Kurzweilianism”的弥赛亚式技术伪宗教——我当时的反对意见是，相信所有形式技术进步的指数级加速看起来太像传统的弥赛亚宗教，例如“末日即将来临，如果我们表现良好并牺牲正确的东西，上帝将带我们进入天堂，否则祂将毁灭我们”，只是披上了技术的外衣。我一直不太理解人们为什么选择相信Kurzweil，在我看来，他在预测未来方面的记录 largely 非常糟糕。

显然，Kurzweilian思想随着时间的推移发生了变异，似乎在一个与名为“LessWrong”的论坛相关的人群中扎根，这是一个更高端的4chan版本，主要是年轻男性试图通过掌握数学词汇（而不是实际数学）来互相打动。该论坛的创始人之一Eliezer Yudkowsky，已成为“末日即将来临”假说的最直言不讳的支持者之一。

我听到了很多关于所主张说法的二手报道，它们对我来说都没有任何意义——但我也主张阅读原始资料以形成意见。这篇博客文章就像是一个（不存在的）YouTube反应视频的博客文章版本，记录我阅读原始资料并对其进行评论。

我将从发布于 https://intelligence.org/2023/03/14/yudkowsky-on-agi-risk-on-the-bankless-podcast/ 的访谈开始。

导致人类被AGI杀死的事件序列大致如下：

假设人类设法构建了一个AGI，这是一个计算系统，对于任何决策都“优于”人类的最佳决策。使用的例子都是具有固定规则集的零和游戏（国际象棋等）。
实现这一点后，人类让这个AGI致力于改进自身，例如编写一个更好的AGI。
这以某种方式成功了，AGI获得了“巨大的技术优势”。
AGI还决定它与人类存在冲突。
AGI然后诱导一群人执行物理行动，使其能够构建某种东西杀死所有人类，在这个访谈中是通过一种“利用碳、氢、氧、氮和阳光复制的类金刚石细菌”，然后杀死所有人类。

这是一个有趣的虚构作品，但它甚至不是科幻小说。以下是一些思考：

人类书写的不正确性和不完整性

人类书写充满了理论上难以证伪的谎言。

作为一名有应用倾向的数学家，我曾与另一位数学家喝醉，身边有一堆硬币、一把钳子和一些胶带。那次会议的目标是“我们如何变形一枚现有硬币，以创建一枚偏差足够大可以测量的硬币”。有偏硬币是概率论练习的主要内容，在书写中大量存在（比灌铅骰子多得多）。

事实证明，修改一枚现有硬币以表现出甚至可靠的0.52:0.48偏差是非常复杂和困难的。修改形状需要如此激进，以至于 resulting 物体不再像硬币，并且将两个重量不均的圆片粘在一起以实现非平凡偏差会创建一个很难在边缘平衡的物体。

一个在人类文本上训练的AI模型永远无法理解制作有偏硬币的困难。它需要配备实际的感知能力，并且需要执行实际的真实实验。对于AI来说，思想实验和真实实验是无法区分的。

因此，通过文本分析学到的任何世界模型都将是现实的一个非常差的近似。

实践世界知识很少被书写下来

几乎所有擅长生产有形东西的经济体和组织都有（显式或隐式）的学徒制度。大多数重要的实践任务无法从书面描述中学习。从来没有一位厨师通过阅读足够多的食谱而成为好厨师，或者一位木工通过阅读大量木工书籍而成为好木工。

任何影响现实世界的技能都涉及大量的现实世界试错。并且几乎所有影响现实世界的技能都涉及大量从未被写下来但执行任务 nonetheless 必不可少的知识。

书面语言描述世界的不准确性和不完整性引出了下一点：

没有实验就没有进步

没有一个超级智能能够不进行基础科学就推理出进步。

快速崛起场景中最奇怪的假设之一是，不知何故，一旦实现了超级智能，它将能够通过抽象推理创建各种具有惊人能力的新发明，而无需执行任何基础科学（例如，验证假设或检查理论或模拟与现实一致性的真实世界实验）。

也许这并不奇怪，因为参与LessWrong论坛和X风险讨论的人似乎很少有人拥有制造或实际材料科学甚至基础木工的经验。

然而，现实是，虽然我们在计算流体动力学（CFD）、碰撞测试模拟等领域近几十年来取得了巨大进步，消除了某些领域许多物理实验的需要，但现实似乎不支持“在纸上”无需广泛而艰苦的实验科学即可实现技术创新的论点。

具体例子：

至今，火车受侧面风影响的空气阻力CFD模拟需要进行实验验证——模拟往往会把重要细节搞错。
可以安全地假设，PRC情报部门的国家支持黑客已经窃取了所有主要芯片制造商曾输入计算机的每一份文件。拥有所有这些知识，以及指挥大量人力分析这些文件的能力，并没有产生制造尖端芯片所需的知识。缺失的是过程知识，例如实际制造芯片的细节。
生产圆珠笔尖很难。很少有国家能够可靠地生产廉价、高质量的圆珠笔尖。中国在2017年著名地庆祝他们达到了那种制造卓越水平。
生产任何真实的东西都需要一个艰苦的理论/假设形成、实验设计、实验执行和缓慢迭代改进的过程。许多物理和化学过程无法人为加速。制造一片晶圆需要5-8周或更长时间是有原因的。

像AlphaGo这样的系统的成功取决于围棋游戏的所有规则在时间上是固定的且已知，以及评估局面质量成本低廉且可以廉价高效地模拟许多不同未来对局的事实。

这些对于现实都不成立：

准确且廉价地模拟现实是不存在的。我们甚至无法高度准确地模拟现实的简单部分（想想湍流飞溅入水槽的水龙头）。
现实的规则不是预先知道的。人类已经创建了许多规则的良好近似，但人类和超级智能仍然需要通过仔细实验和逐步改进来创建规则的新近似。
对抗性和竞争性游戏（例如与人类的冲突）的规则在时间上不稳定。
在现实中评估任何实验都有显著成本，特别是对AI而言。

我经常为此使用的一个思想实验是：

假设扩展是获得更高智能所需的一切。如果是这样，虎鲸或抹香鲸已经比最聪明的人类聪明得多，所以也许虎鲸或抹香鲸已经是超级智能。现在想象一只虎鲸或抹香鲸配备了人类的所有书面知识和一个可以给人们发送电子邮件的键盘。这只虎鲸或抹香鲸需要多长时间才能设计并执行一个杀死所有人类的阴谋？

关注快速崛起场景的人似乎认为人类仅凭智力就达到了现在的地位。就个人而言，我认为至少有三件事结合在一起：具有对生拇指的双足行走、可以生火的环境以及智力。如果我们缺少三者中的任何一个，我们就不会建造任何我们的技术。虎鲸和抹香鲸缺少拇指和火，你无法仅凭思考就统治世界。

超级智能也将受到基本信息论限制的约束

超级智能可以以任意精度模拟现实的假设与我们关于热力学、计算不可约性和信息论的知识相悖。

许多叙述似乎假设超级智能将以某种方式摆脱“计算成本”、“存储信息成本”、“获取信息成本”等约束——但如果我假设一个全知存在，具有无限计算能力和确定性计算物理，我可以构建一个硬核版本的麦克斯韦妖，通过与大气中的所有原子玩极其聪明的台球来烧毁一半地球。不需要类金刚石细菌（无论那是什么意思）。

我们无法建造麦克斯韦妖，也无法建造永动机，是因为信息论和热力学之间存在关系，没有人，包括没有超级智能，能够打破它。

无论你是信徒还是无神论者，你都无法意外创造大写G的上帝，即使你能构建一个程序在地球上所有灵长类动物中下国际象棋最好。这里提示参考兰道尔原理。

冲突（例如试图杀死人类）没有零风险举动

传统的兵棋推演广泛使用随机数——单位具有杀伤概率（通常凭经验确定），使用随机数模拟随机事件是现实世界兵棋推演的重要组成部分。这意味着举动“不奏效”，某事 horrendously 出错在任何冲突中都是常态。通常没有有益的无风险举动；例如，你采取的每一个举动确实为对手打开了机会。

我发现有些令人困惑的是，在所有X风险场景中，超级智能不知何故找到了一系列零风险或接近零风险的举动，以某种方式产生了期望的结果，而人类在发生之前甚至没有发现一丝证据。

一个更现实的场景（如果我们接受一个牵强和不切实际的想法，即一个决定对人类造成伤害的实际合成超级智能是既成事实）涉及该AI基于高度不确定的数据采取使AI自身面临风险的举动。因此，冲突不会短暂，并且会在人类和超级智能之间具有多个互动点。

下一词元预测无法处理库恩式范式转移

有些人认为下一词元预测将导致超级智能。我不买账，主要是因为我不清楚预测下一词元将如何处理库恩式范式转移。科学以断断续续的方式前进；通常你停留在一个吱吱作响的范式内，直到发生某种“科学革命”。科学革命必然改变语言产生的方式——例如，科学革命之前的所有人类书写语料库不能很好地代表科学革命之后使用的语言——但LLM将被训练来模仿训练语料库的分布。人们指出上下文学习并认为LLM可以吸收新知识，但我对此尚未信服——所有当前模型在生成一个词序列时失败，当切成2元组时，这些2元组在训练语料库中很少或从未出现，这表明ICL在调整LLM输出分布的方式上极其有限。

今天就到这里。接触自然，建造些东西

理论上，理论等于实践。实践中并非如此。从软件的理论领域（几代电子工程和芯片工程师牺牲了他们的生命，为软件工程师提供了一个理论大部分时间接近实践的环境）步入涉及灰尘、阳光、辐射和设备 chatter 的现实世界事物，是一种令人清醒的体验，我们都应该更经常地这样做。如果你不建造任何东西，很容易退化为繁琐哲学。

驳斥AGI末日论：为什么超级智能不会毁灭人类

本文从技术角度系统驳斥了AGI快速崛起并毁灭人类的末日论调，分析了语言模型的局限性、实验科学的重要性以及物理世界的根本约束，指出纯文本训练无法获得真实世界知识。