互联网上有人错了(AGI末日版)
近年来,一股关于LLM获得意识并突然试图消灭人类的歇斯底里情绪席卷而来。这种通常以“LessWrong”论坛典型的伪贝叶斯语言表达的恐慌,已经渗透到媒体,进而影响政治,甚至立法。
这种恐慌源于一种说法:突然出现的AGI会对人类构成生存风险,通过一系列无法阻止的快速步骤消灭人类。其中大部分完全错误,我将在本文中集中讨论“快速起飞场景”。
早在2014、2016和2017年,我就遇到过关于AI进展的看似非理性的奇怪观点,并对被我称为“库兹韦尔主义”的救世主技术伪宗教发表了一些批评推文——我当时的反对意见是,相信所有形式技术进步的指数级加速看起来太像传统的救世主宗教,例如“末日即将来临,如果我们做得好并牺牲正确的东西,上帝将带我们进入天堂,否则祂将毁灭我们”,只是披上了技术外衣。我一直无法理解人们为何选择相信库兹韦尔,在我看来,他在预测未来方面的记录 largely 糟糕透顶。
显然,库兹韦尔的思想随着时间的推移发生了变异,似乎在一个与名为“LessWrong”的论坛相关的人群中扎根,这是一个更高端的4chan版本,主要是年轻男性试图通过掌握数学词汇(而非实际数学)来互相 impress。该论坛的创始人之一Eliezer Yudkowsky,已成为“末日临近”假说的最直言不讳的支持者之一。
我听到了很多关于所倡导主张的二手报道,但没有一个让我觉得有任何意义——但我也主张阅读原始资料以形成观点。这篇博客文章就像是一个(不存在的)YouTube反应视频的博客版本,我在其中阅读原始资料并发表评论。
我将从发布于https://intelligence.org/2023/03/14/yudkowsky-on-agi-risk-on-the-bankless-podcast/的访谈开始。导致人类被AGI杀死的事件序列大致如下:
假设人类成功构建了一个AGI,这是一个计算系统,在任何决策上都“优于”人类的最佳决策。使用的例子都是具有固定规则集的零和游戏(国际象棋等)。成功后,人类让这个AGI致力于改进自身,例如编写更好的AGI。这 somehow 成功,AGI获得了“巨大的技术优势”。AGI还决定与人类发生冲突。然后AGI coax 一群人类执行物理行动,使其能够构建某种东西杀死所有人类,在这个访谈中是通过一种“使用碳、氢、氧、氮和阳光复制的类金刚石细菌”来实现,然后杀死所有人类。
这是一个有趣的虚构作品,但甚至不是科幻小说。以下是一些思考:
人类书写的不正确性和不完整性
人类书写充满了难以从理论上 disprove 的谎言。作为一名有应用倾向的数学家,我曾与另一位数学家、一堆硬币、一把钳子和一些胶带喝醉。会议的目标是“我们如何变形现有硬币以创建 bias 足够大以测量的硬币”。偏置硬币是概率论练习的主要内容,在书写中大量存在(比 loaded dice 多得多)。
事实证明,修改现有硬币以表现出甚至可靠的0.52:0.48 bias 非常复杂和困难。修改形状需要如此 aggressive,以至于 resulting 物体不再像硬币,而将两个重量不均的圆盘粘在一起以实现非平凡 bias 会创建一个很难在边缘平衡的物体。
基于人类文本训练的AI模型永远无法理解制作偏置硬币的困难。它需要配备实际传感,并且需要执行实际的真实实验。对于AI来说,思想实验和真实实验是无法区分的。
因此,通过文本分析学到的任何世界模型都将是对现实的非常差的近似。
实践世界知识很少被书写下来
几乎所有擅长生产有形产品的经济和组织都有(显式或隐式)学徒制系统。大多数重要的实践任务无法从书面描述中学习。从来没有一位厨师通过阅读足够多的烹饪书而成为好厨师,也没有一位木工通过阅读大量关于木工的书而成为好木工。
任何影响现实世界的技能都涉及大量现实世界的试错。几乎所有影响现实世界的技能都涉及大量从未被写下来但对执行任务至关重要的知识。
书写语言描述世界的不准确性和不完整性导致了下一点:
没有实验就没有进展
没有一个超级智能能够在不进行基础科学的情况下推理出进展。快速起飞场景中最奇怪的假设之一是, somehow 一旦实现了超级智能,它将能够通过抽象推理创造各种具有 fantastical 能力的新发明,而不进行任何基础科学(例如验证假设或检查理论或模拟与现实一致性的真实世界实验)。
也许这并不奇怪,因为参与LessWrong论坛和X风险讨论的人似乎很少有制造或实际材料科学甚至基础木工的经验。
然而,现实是,尽管近几十年来我们在计算流体动力学(CFD)、碰撞测试模拟等领域取得了巨大进步,消除了某些领域许多物理实验的需要,但现实似乎并不支持技术创新“在纸上”可行而不需要广泛而艰苦的实验科学的论点。
具体例子:
至今,火车在受角度风击时所受空气阻力的CFD模拟需要进行实验验证——模拟往往会把重要细节搞错。可以安全地假设,PRC情报部门的国家支持黑客已经窃取了所有主要芯片制造商曾输入计算机的每一份文件。拥有所有这些知识,以及 directing 大量人力分析这些文档的能力,并没有产生制造尖端芯片所需的知识。缺少的是过程知识,例如实际制造芯片的细节。
生产圆珠笔尖很难。很少有国家能够可靠地生产廉价、高质量的圆珠笔尖。中国在2017年著名地庆祝达到了那种制造 excellence 水平。
生产任何真实的东西都需要一个艰苦的理论/假设形成、实验设计、实验执行和缓慢迭代改进的过程。许多物理和化学过程无法人为加速。制造一片晶圆芯片需要5-8周或更长时间是有原因的。
AlphaGo等系统的成功取决于围棋的所有规则在时间上是固定的且已知,以及评估位置质量的成本低廉,并且可以廉价高效地模拟许多不同的未来游戏。
这些对于现实都不成立:准确且廉价地模拟现实是不存在的。我们甚至无法高度准确地模拟现实的简单部分(想想具有湍流飞溅到水槽中的水龙头)。现实的规则不是预先知道的。人类已经创建了许多规则的良好近似,但人类和超级智能仍然需要通过仔细实验和逐步改进来创建规则的新近似。对抗性和竞争性游戏(如与人类的冲突)的规则在时间上不稳定。评估现实中的任何实验都有 significant 成本,特别是对AI而言。
我经常用于此的思想实验是:假设扩展是 greater intelligence 的全部所需。如果是这样,虎鲸或抹香鲸已经比最聪明的人类聪明得多,所以也许虎鲸或抹香鲸已经是超级智能。现在想象一只装备了所有人类书写知识和键盘的虎鲸或抹香鲸,可以通过电子邮件与人联系。这只虎鲸或抹香鲸能多快设计并执行一个杀死所有人类的阴谋?
关注快速起飞场景的人似乎认为人类仅凭 intelligence 就取得了现在的地位。就个人而言,我认为至少有三件事结合在一起:具有对生拇指的双足行走、可以生火的环境,以及 intelligence。如果我们缺少三者中的任何一个,我们就不会建造任何技术。虎鲸和抹香鲸缺少拇指和火,你无法通过思考来统治世界。
超级智能也将受基本信息理论限制
超级智能可以 somehow 模拟现实到任意精度的假设与我们关于热力学、计算不可约性和信息理论的知识相悖。许多叙述似乎假设超级智能将 somehow 摆脱“计算成本”、“存储信息成本”、“获取信息成本”等约束——但如果我假设一个全知存在具有无限计算能力和确定性计算物理,我可以构建一个硬核版本的麦克斯韦妖,通过与大气中所有原子玩极其聪明的台球来焚烧 half 地球。不需要类金刚石细菌(无论那是什么意思)。
我们无法构建麦克斯韦妖和永动机的原因在于信息理论与热力学之间存在关系,没有人,包括没有超级智能,能够打破它。无论你是信徒还是无神论者,你都无法意外创造大写G上帝,即使你能构建一个程序在地球上所有灵长类动物中下棋最好。这里 cue 参考兰道尔原理。
冲突(如试图杀死人类)没有零风险移动
传统兵棋推广泛使用随机数——单位有 kill 概率(通常凭经验确定),使用随机数模拟随机事件是现实世界兵棋推演的重要组成部分。这意味着移动“不工作”、某事 horrendously 出错在任何冲突中都是常态。通常没有有利可图的零风险移动;例如,你做的每一个移动确实为对手打开了机会。
我发现有些 baffling,在所有X风险场景中,超级智能 somehow 找到一系列零风险或接近零风险的移动, somehow 产生 desired 结果,而人类在发生之前甚至找不到一丝证据。
一个更现实的场景(如果我们接受一个牵强和不现实的想法,即一个实际的合成超级智能决定造成人类伤害)涉及AI基于高度不确定的数据做出对AI构成风险的移动。因此,冲突不会短暂,并且会有多个人类与超级智能之间的互动点。
下一个令牌预测无法处理库恩范式转变
有些人认为下一个令牌预测将导致超级智能。我不买账, largely 因为我不清楚预测下一个令牌将如何处理库恩范式转变。科学以 fits and bursts 进行;通常你停留在一个 creaky 范式中,直到有某种“科学革命”。科学革命必然改变语言产生的方式——例如,科学革命之前的所有人类书写语料库不能很好地代表科学革命之后使用的语言——但LLM将被训练以模仿训练语料库的分布。人们指出上下文学习并认为LLM可以 incorporate 新知识,但我尚未 convinced——所有当前模型在生成一系列单词时失败,当切成2元组时,在训练语料库中很少或从未出现,这表明ICL在调整LLM输出分布的方式上极其有限。
今天就到这里。触摸一些草,构建一些东西。理论上,理论等于实践。实践中不然。走出软件的理论领域(几代电气工程和芯片工程师牺牲生命给软件工程师一个理论大部分时间接近实践的环境),进入涉及灰尘、阳光、辐射和设备 chatter 的现实世界事物,是一种 sobering 体验,我们都应该更经常做。如果你不构建任何东西,很容易退化为经院哲学。