有人对互联网的看法是错误的（AGI末日版）

过去几年，出现了一波关于LLM变得有意识然后突然试图消灭人类的歇斯底里。这种通常以"lesswrong"论坛典型的伪贝叶斯语言表达的歇斯底里，已经渗透到媒体中，并从那里进入政治领域，影响了立法。

这种歇斯底里源于这样一种说法：突然出现的AGI会给人类带来生存风险，然后通过一系列无法阻止的快速步骤消灭人类。其中大部分是完全错误的，我将尝试在本文中收集我对这个话题的看法——重点关注"快速崛起场景"。

我之前遇到过关于AI进展的看似非理性的奇怪观点，并在2014年、2016年和2017年发表了一些批评性推文，批评我称之为"Kurzweilianism"的弥赛亚技术伪宗教——我当时反对的是，相信所有形式技术进步的指数级加速看起来太像传统的弥赛亚宗教，例如"末日即将来临，如果我们表现良好并牺牲正确的东西，上帝将带我们进入天堂，否则祂将毁灭我们"，只是披上了技术外衣。我一直不太理解为什么人们选择相信Kurzweil，在我看来，他在预测未来方面的记录基本上很差。

显然，Kurzweilian思想随着时间的推移发生了变异，似乎在一个与名为"LessWrong"的论坛相关的人群中扎根，这是一个更高雅的4chan版本，主要是年轻男性试图通过掌握数学词汇（而不是实际数学）来互相打动。该论坛的创始人之一Eliezer Yudkowsky已成为"末日即将来临"假说的最直言不讳的支持者之一。

我听到了很多关于所倡导主张的二手报道，但没有一个对我有任何意义——但我也支持阅读原始资料以形成观点。这篇博客文章就像是一个（不存在的）YouTube反应视频的博客文章版本，我在其中阅读原始资料并对其进行评论。

我将从发布于https://intelligence.org/2023/03/14/yudkowsky-on-agi-risk-on-the-bankless-podcast/的采访开始。

导致人类被AGI杀死的事件序列大致如下：

假设人类成功构建了一个AGI，这是一个计算系统，对于任何决策都"优于"人类的最佳决策。使用的例子都是具有固定规则集的零和游戏（国际象棋等）。
实现这一点后，人类让这个AGI致力于改进自身，例如编写更好的AGI。
这以某种方式成功了，AGI获得了"巨大的技术优势"。
AGI还决定与人类发生冲突。
然后AGI诱导一群人执行物理行动，使其能够构建某种东西杀死所有人类，在这个采访中是通过一种"利用碳、氢、氧、氮和阳光复制的类金刚石细菌"，然后杀死所有人类。

这是一个有趣的虚构作品，但甚至不是科幻小说。以下是一些思考：

人类书写的不正确性和不完整性

人类书写充满了难以从理论上反驳的谎言

作为一名有应用倾向的数学家，我曾与另一位数学家喝醉，有一堆硬币、一把钳子和一些胶带。这次会议的目标是"我们如何变形现有硬币以创建具有足够显著偏差可测量的硬币"。有偏硬币是概率论练习的主要内容，在书写中大量存在（比灌铅骰子多得多）。

事实证明，修改现有硬币以表现出甚至可靠的0.52:0.48偏差是非常复杂和困难的。修改形状需要如此激进，以至于 resulting 物体不再像硬币，并且将两个重量不均的圆盘粘在一起以实现非平凡偏差会创建一个很难在边缘平衡的物体。

在人类文本上训练的AI模型永远无法理解制作有偏硬币的困难。它需要配备实际感知，并且需要执行实际的真实实验。对于AI来说，思想实验和真实实验是无法区分的。

因此，通过文本分析学到的任何世界模型都将是对现实的非常差的近似。

实用世界知识很少被写入

几乎所有擅长生产有形东西的经济体和组织都有（显性或隐性）的学徒制度。大多数重要的实际任务无法从书面描述中学习。从来没有一位厨师通过阅读足够多的烹饪书而成为好厨师，或者一位木工通过阅读大量关于木工的书籍而成为好木工。

任何影响现实世界的技能都涉及大量的现实世界试错。几乎所有影响现实世界的技能都涉及大量从未被写下来但执行任务 nonetheless 必不可少的知识。

书面语言描述世界的不准确性和不完整性导致了下一个观点：

没有实验就没有进展

没有超级智能能够不进行基础科学就推理出进展

快速崛起场景中最奇怪的假设之一是，一旦实现了超级智能，它将能够通过抽象推理创建各种具有奇幻能力的新发明，而不需要执行任何基础科学（例如，验证假设或检查理论或模拟与现实一致性的真实世界实验）。

也许这并不奇怪，因为参与LessWrong论坛和X风险讨论的人似乎很少有人有制造或实际材料科学甚至基础木工的经验。

然而，现实是，虽然我们在计算流体动力学（CFD）、碰撞测试模拟等领域取得了巨大进步，在某些领域消除了许多物理实验的需要，但现实似乎不支持这样的论点：技术革新可以在"纸上"可行，而不需要广泛而艰苦的实验科学。

具体例子：

至今，火车在受角度风影响时所受空气阻力的CFD模拟需要进行实验验证——模拟往往会把重要细节搞错。
可以安全地假设，PRC情报部门的国家支持黑客已经窃取了所有主要芯片制造商计算机中曾经存放的每一份文件。拥有所有这些知识，以及指导大量人力分析这些文件的能力，并没有产生制造尖端芯片所需的知识。缺失的是过程知识，例如实际制造芯片的细节。
生产圆珠笔尖很难。很少有国家能够可靠地生产廉价、高质量的圆珠笔尖。中国在2017年著名地庆祝他们达到了那种制造卓越水平。
生产任何真实的东西都需要一个艰苦的理论/假设形成、实验设计、实验执行和缓慢迭代改进的过程。许多物理和化学过程无法人为加速。制造一片晶圆需要5-8周或更长时间是有原因的。

像AlphaGo这样的系统的成功取决于围棋游戏的所有规则在时间上是固定的和已知的，以及评估位置质量成本低廉且可以廉价高效地模拟许多不同未来游戏的事实。

这些对于现实都不成立：

准确且廉价地模拟现实是不存在的。我们甚至无法高度准确地模拟现实的简单部分（想想具有湍流飞溅到水槽中的水龙头）。
现实的规则不是预先知道的。人类已经创造了许多规则的良好近似，但人类和超级智能仍然需要通过仔细实验和逐步改进来创建规则的新近似。
对抗性和竞争性游戏（如与人类的冲突）的规则在时间上不稳定。
在现实中评估任何实验都有显著成本，特别是对AI。

我经常为此使用的一个思想实验是：假设扩展是获得更高智能所需的一切。如果是这种情况，虎鲸或抹香鲸已经比最聪明的人类聪明得多，所以也许虎鲸或抹香鲸已经是超级智能。现在想象一只虎鲸或抹香鲸配备了人类的所有书面知识和一个可以给人们发电子邮件的键盘。这只虎鲸或抹香鲸能多快设计并执行一个杀死所有人类的阴谋？

关注快速崛起场景的人似乎认为人类仅凭智力就达到了现在的地位。就个人而言，我认为至少有三件事结合在一起：具有对生拇指的双足行走、可以生火的环境和智力。如果我们缺少三者中的任何一个，我们就不会建造任何技术。虎鲸和抹香鲸缺少拇指和火，你无法仅凭思考就统治世界。

超级智能也将受到基本信息理论限制的约束

超级智能可以以任意精度模拟现实的假设与我们关于热力学、计算不可约性和信息论的知识相悖。

许多叙述似乎假设超级智能将以某种方式摆脱"计算成本"、“存储信息成本”、“获取信息成本"等约束——但如果我假设一个全知存在具有无限计算能力和确定性计算物理，我可以构建一个硬核版本的麦克斯韦妖，通过与大气中所有原子玩非常聪明的台球来烧毁一半地球。不需要类金刚石细菌（无论那是什么意思）。

我们无法构建麦克斯韦妖和永动机的原因在于信息论和热力学之间存在关系，没有人，包括没有超级智能，能够打破它。

无论你是信徒还是无神论者，你都无法意外创造大写G的上帝，即使你能构建一个程序在地球上所有灵长类动物的国际象棋中获胜。这里提示参考兰道尔原理。

冲突（如试图杀死人类）没有零风险举动

传统兵棋推演广泛使用随机数——单位有杀伤概率（通常凭经验确定），使用随机数模拟随机事件是现实世界兵棋推演的重要组成部分。这意味着在任何冲突中，“行动失败”、出现严重错误是常态。通常没有有利可图的零风险举动；例如，你采取的每一个举动确实为对手打开了机会。

我发现有些令人困惑的是，在所有X风险场景中，超级智能以某种方式找到一系列零风险或接近零风险的举动，以某种方式产生期望的结果，而人类在发生之前甚至没有发现一丝证据。

一个更现实的场景（如果我们接受一个牵强和不切实际的实际合成超级智能决定对人类造成伤害的想法）涉及该AI基于高度不确定的数据采取对AI带来风险的举动。因此，冲突不会短暂，并且在人类和超级智能之间会有多个互动点。

下一个令牌预测无法处理库恩范式转变

有些人认为下一个令牌预测将导致超级智能。我不买账，主要是因为我不清楚预测下一个令牌将如何处理库恩范式转变。科学以断断续续的方式前进；通常你停留在一个吱吱作响的范式内，直到发生某种"科学革命”。科学革命必然改变语言产生的方式——例如，科学革命之前的所有人类书写语料库不能很好地代表科学革命之后使用的语言——但LLM将被训练来模仿训练语料库的分布。人们指出上下文学习并争辩LLM可以整合新知识，但我对此尚未信服——所有当前模型在生成一系列单词时失败的事实——当切成2元组时——在训练语料库中很少或从未出现——表明ICL在调整LLM输出分布的方式上极其有限。

今天就到这里。接触一些草地，建造一些东西

理论上，理论等于实践。在实践中并非如此。从软件的理论领域（几代电子工程和芯片工程师牺牲了他们的生命，为软件工程师提供了一个理论大部分时间接近实践的环境）步入涉及灰尘、阳光、辐射和设备颤振的现实世界事物，是一种清醒的体验，我们都应该更经常地这样做。如果你不建造任何东西，很容易退化为经院哲学。

驳AGI末日论：为什么超级智能不会毁灭人类

本文从技术角度系统批判了AGI快速崛起毁灭人类的末日论观点，指出其忽略了现实世界的复杂性、实验科学的必要性、信息理论限制以及冲突中的风险因素，论证了当前AI技术的局限性。