ADD / XOR / ROL：对LLM的非拟人化视角

在许多涉及"对齐"或"AI安全"问题的讨论中，我常惊讶于一些极其聪明的人会将近乎神奇的人类能力赋予某种在我看来只是矩阵乘法夹杂非线性变换的东西。在一次这样的讨论中，有人正确地指出了我这个论点的简单性——“大脑不过是一些蛋白质和电流”。我觉得应该进一步解释我的观点，因为在我看来这并不简单：

词空间

分词和嵌入步骤将单个词（或标记）映射到某个(\mathbb{R}^n)向量。让我们想象一下，我们面前有一个(\mathbb{R}^n)空间。一段文本就是在这个空间中的一条路径——从一个词到另一个词，描绘出一条（可能复杂的）线。

现在，假设你给形成这条路径的每个"词"标上一个数字：最后一个词标1，向前计数直到第一个词或达到最大上下文长度(c)。如果你玩过"贪吃蛇"游戏，可以想象类似的东西，但是在一个非常高维的空间中——你在空间中向前移动，尾部被截断。

LLM会考虑你之前的路径，计算下一个点的概率，然后根据这些概率随机选择下一个点。使用固定随机种子实例化的LLM是一个形式为((\mathbb{R}^n)^c \mapsto (\mathbb{R}^n)^c)的映射。

在我看来，这些映射生成的路径很像动力系统中的奇怪吸引子——复杂、曲折但有一定结构的路径。

学习映射

我们通过训练模型模仿人类文本来获得这种映射。为此，我们使用几乎所有能获得的人类写作，加上人类专家在特定主题上撰写的语料库，以及在我们能自动生成和验证的领域中自动生成的一些文本片段。

需要避免的路径

有些语言序列我们希望避免——因为这些模型生成的序列试图模仿人类语言的所有经验结构，但我们认为人类经验性撰写的一些内容非常不希望被生成。我们还认为，如果被人类或其他计算机系统解释时会产生不良结果，理想情况下不应生成各种其他路径。

我们无法在数学意义上严格指定不希望生成的路径，但我们可以提供正例和反例，从而尝试将这个复杂的学习分布从这些路径上推离。

LLM的"对齐"

LLM的对齐和安全意味着我们应该能够量化和限制生成某些不良序列的概率。问题在于，我们基本上无法描述"不良"，只能通过示例，这使得计算边界变得困难。

对于给定的LLM（无随机种子）和序列，计算生成该序列的概率是微不足道的。因此，如果我们有某种方法对这些概率求和或积分，我们就可以肯定地说"这个模型每N次模型评估就会生成一次不良序列"。目前我们还做不到这一点，这很糟糕，但本质上，这是我们需要解决的数学和计算问题。

LLM的惊人效用

LLM解决了大量以前无法通过算法解决的问题。NLP（几年前的状态）基本上已经得到解决。

我可以用简单的英语写一个请求，要求为我总结文档并将文档中的一些关键数据点放入结构化的JSON格式中，现代模型就能做到这一点。我可以要求模型生成一个涉及赛艇的儿童故事并生成插图，模型会生成一些过得去的东西。还有更多功能，所有这些在5-6年前都像是绝对的科幻小说。

我们正处于一个相当陡峭的改进曲线上，因此我预计这些模型能解决的当前棘手问题的数量将继续增加一段时间。

拟人化让我困惑的地方

当人们将"意识"、“伦理”、“价值观"或"道德"等属性归因于这些学习到的映射时，我就开始感到困惑。我们讨论的是一个产生新词的大型递归方程，如果我们不转动曲轴，它就会停止产生词。

对我来说，思考这个装置是否会"醒来"就像问计算气象学家是否不担心他的气象数值计算会"醒来"一样令人困惑。

令我困惑的是，AI讨论似乎从未脱离将生成词序列的函数视为类似人类的东西。诸如"AI代理可能成为内部威胁，因此需要监控"这样的陈述既不出人意料（你有一个随机序列生成器输入到你的shell中，任何事情都可能发生！）又令人困惑（你说话的方式好像相信你玩的骰子有自己的思想，可以决定密谋反对你）。

与其说"我们无法确保我们的函数不会生成有害序列，部分原因是我们不知道如何指定和枚举有害序列”，我们谈论的是"行为"、“伦理约束"和"追求目标时的有害行动”。所有这些都是以人类为中心的概念，在我看来不适用于函数或其他数学对象。使用这些概念混淆了讨论，也混淆了我们对创建、分析、部署和监控LLM时正在做什么的思考。

这混淆了公众讨论。我们有很多历史例子，人类将不良随机事件归因于"神的愤怒"（地震、饥荒等）、“邪恶灵魂"等等。受过高等教育的智能研究人员用拟人化术语讨论这些数学对象，使这项技术显得神秘、可怕和神奇。

我们应该从"这是一个生成序列的函数"和"通过提供前缀，我们可以在词空间中引导序列生成并改变输出序列的概率"的角度来思考。对于每个长度小于(c)的可能不良输出序列，我们可以选择一个最大化这种不良输出序列概率的上下文。

这是一个更清晰的表述，有助于更清晰地阐明需要解决的问题。

为什么许多AI权威倾向于拟人化

也许我在与风车作战，或者更确切地说是在与自我选择偏见作斗争：相当多的当前AI权威是通过他们可能成为实现AGI的人这一信念自我选择的——可以说是"创造神”，创造类似生命的东西，与人类一样好或更好。如果你相信这是可行的，并且当前的方法可能让你达到这个目标，你更可能选择这条职业道路。可能当我要求停止对LLM的拟人化时，我是在要求人们"请放弃你一生所基于的信念"，这不会成功。

为什么我认为人类意识与LLM不可比

以下内容 uncomfortably 哲学化，但是：在我的世界观中，人类与函数((\mathbb{R}^n)^c \mapsto (\mathbb{R}^n)^c)是截然不同的东西。数亿年来，自然产生了新版本，其中只有一小部分存活下来。人类思维是一个理解甚少的过程，涉及极其多的神经元、极高带宽的输入、极其复杂的激素混合物、持续的能量水平监测以及数百万年的严酷选择压力。

我们基本上对此一无所知。与LLM相比，给定一个人和一个词序列，我无法开始对"这个人是否会生成这个序列"赋予概率。

重复一遍：对我来说，认为任何人类概念如伦理、生存意志或恐惧适用于LLM，就像讨论数值气象模拟的感受一样奇怪。

真正的问题

现代LLM所代表的函数类非常有用。即使我们永远无法接近AGI，只是将当前技术部署到所有可能有用的地方，我们也会得到一个截然不同的世界。LLM最终可能会像电气化一样具有影响力。

我的祖父从1904年活到1981年，这段时期涵盖了从煤气灯到电灯的转变，马车被汽车取代，核能，晶体管，一直到计算机。它还跨越了两次世界大战，共产主义和斯大林主义的兴起，几乎涵盖了苏联和东德的整个生命周期等等。他出生时的世界与他去世时的世界完全不同。

在不混淆我们思维的情况下，驾驭未来几十年的剧烈变化，同时试图避免世界大战和谋杀性意识形态，已经足够困难了。

揭秘大语言模型：从数学映射视角看LLM本质

本文从数学函数视角剖析大语言模型的本质，探讨词向量空间中的路径生成机制、对齐问题的数学表述，以及为何应避免将人类特性投射到这些数学模型上。