ADD / XOR / ROL:大语言模型的非拟人化视角
在许多涉及"对齐"或"AI安全"问题的讨论中,我常惊讶于一些真正聪明的人会将近乎神奇的人类能力赋予某种在我看来只是矩阵乘法夹杂非线性变换的东西。在一次讨论中,有人正确地指出我这个论点的简单化倾向——“大脑不过是一些蛋白质和电流”。我觉得应该进一步解释我的观点,因为在我看来这并不简单:
词语空间
分词和嵌入步骤将单个词语(或标记)映射到某个Rn向量。让我们暂时想象面前有一个Rn空间。一段文本就是穿越这个空间的路径——从一个词到另一个词,描绘出一条(可能复杂的)轨迹。
现在给构成路径的每个"词语"标上数字:最后一个词标1,向前计数直到第一个词或达到最大上下文长度c。如果你玩过"贪吃蛇"游戏,可以想象类似的场景,只不过是在高维空间中运行——你在空间中向前移动,尾部不断被截断。
大语言模型会考虑你之前的路径,计算下一个点的概率,然后根据这些概率随机选择下一个点。使用固定随机种子实例化的LLM是一个形式为(Rn)c↦(Rn)c的映射。
在我看来,这些映射生成的路径很像动力系统中的奇怪吸引子——复杂、曲折但具有一定结构的路径。
学习映射
我们通过训练模型模仿人类文本来获得这种映射。为此,我们使用几乎所有能获取的人类书面材料,加上特定领域人类专家撰写的语料,以及在一些可以自动生成和验证文本的领域自动生成的文本片段。
需要避免的路径
有些语言序列我们希望避免——因为这些模型生成的序列试图模仿人类语言的所有经验结构,但我们认为人类经验性书写的某些内容非常不适合被生成。我们还认为,如果被人类或其他计算机系统解释后会产生不良结果,理想情况下也不应生成各种其他路径。
我们无法严格用数学方式指定不希望生成的路径,但可以提供正反例,试图将复杂的学习分布从这些路径上推离。
LLM的"对齐"问题
LLM的对齐和安全意味着我们应该能够量化和限制生成某些不良序列的概率。问题在于我们大多只能通过示例来描述"不良",这使得计算边界变得困难。
对于给定的LLM(无随机种子)和序列,计算序列被生成的概率是简单的。如果我们有办法对这些概率求和或积分,就能确定地说"该模型每N次模型评估就会生成一次不良序列"。目前我们还做不到,但这正是我们需要解决的数学和计算问题的核心。
LLM的惊人实用性
LLM解决了大量以前无法通过算法解决的问题。NLP(几年前的状态)基本上已经被解决。
我可以用简单英语写一个请求,让模型为我总结文档并将文档中的关键数据点放入结构化JSON格式,现代模型就能做到。我可以要求模型生成一个涉及赛艇的儿童故事并生成插图,模型会生成勉强可用的内容。这些在5-6年前看起来完全是科幻小说般的功能。
我们正处于相当陡峭的改进曲线上,因此预计这些模型能解决的当前棘手问题的数量还会持续增加一段时间。
拟人化让我困惑的地方
当人们将"意识"、“伦理”、“价值观"或"道德"等属性归因于这些学习到的映射时,我就开始感到困惑。我们讨论的是一个产生新词的大型递归方程,如果我们不转动曲轴,它就会停止产生词语。
对我来说,思考这个装置是否会"觉醒”,就像询问计算气象学家是否担心他的气象数值计算会"觉醒"一样令人困惑。
令我困惑的是,AI讨论似乎从未摆脱将生成词序列的函数视为类似人类的东西。诸如"AI代理可能成为内部威胁,因此需要监控"的陈述既不出所料(你有一个随机序列生成器输入到你的shell中, literally任何事情都可能发生!)又令人困惑(你说话的样子好像相信你玩的骰子有自己的思想,可以决定密谋反对你)。
我们不说"我们无法确保我们的函数不会生成有害序列,部分原因是我们不知道如何指定和枚举有害序列",而是谈论"行为"、“伦理约束"和"追求目标时的有害行动”。所有这些都是以人类为中心的概念,在我看来不适用于函数或其他数学对象。使用这些概念混淆了讨论,也混淆了我们在创建、分析、部署和监控LLM时的思考。
这混淆了公共讨论。历史上有许多人类将不良随机事件归因于"神的愤怒"(地震、饥荒等)、“邪灵"等的例子。受过高等教育的智能研究人员用拟人化术语讨论这些数学对象,使技术显得神秘、可怕和神奇。
我们应该用"这是一个生成序列的函数"和"通过提供前缀,我们可以在词语空间中引导序列生成并改变输出序列的概率"来思考。对于每个长度小于c的可能不良输出序列,我们可以选择一个最大化该不良输出序列概率的上下文。
这是一个更清晰的表述,有助于更清晰地阐明需要解决的问题。
为什么许多AI领军人物倾向于拟人化
也许我在与风车作战,或者更准确地说是在与自我选择偏见作斗争:相当数量的当前AI领军人物是通过相信他们可能是实现AGI的人而自我选择的——可以说是"创造神”,创造类似生命的东西,与人类一样好或更好。如果你相信这是可行的,并且当前的方法可能让你达到目标,你更可能选择这个职业道路。可能当我要求停止对LLM的拟人化时,我是在要求人们"请放弃你毕生所依的信念",这行不通。
为什么我认为人类意识与LLM不可比
以下内容令人不适地哲学化,但:在我的世界观中,人类与函数(Rn)c↦(Rn)c是截然不同的东西。数亿年来,自然产生了新版本,其中只有少数版本存活下来。人类思维是一个知之甚少的过程,涉及大量神经元、极高带宽输入、极其复杂的激素混合物、持续的能量水平监控以及数百万年的严酷选择压力。
我们基本上对此一无所知。与LLM相反,给定一个人和一个词序列,我无法开始计算"这个人会生成这个序列的概率"。
重复一遍:对我来说,认为任何人类概念如伦理、生存意志或恐惧适用于LLM,就像讨论数值气象模拟的感受一样奇怪。
真正的问题
现代LLM所代表的函数类非常有用。即使我们永远无法接近AGI,只是将当前技术部署到所有可能有用的地方,我们也将得到一个截然不同的世界。LLM最终可能会像电气化一样具有影响力。
我的祖父从1904年活到1981年,这段时期涵盖了从煤气灯到电灯的转变,马车被汽车取代,核能、晶体管一直到计算机的出现。它还跨越了两次世界大战、共产主义和斯大林主义的兴起,几乎涵盖了苏联和东德的整个存续期等。他出生时的世界与他去世时的世界截然不同。
在不混淆我们思维的情况下,驾驭未来几十年的剧烈变化同时试图避免世界大战和 murderous ideologies已经足够困难。