大语言模型与归纳推理的艺术
大型语言模型(LLMs)的涌现能力随着规模扩大而提升;当规模增长时,LLMs将走向何方?从Ray Solomonoff的归纳理论和随机实现理论中获得的见解可能帮助我们构想并指导缩放极限。
生物学与技术之争
机器学习历来从生物学中汲取灵感。但生物系统具有严格的个体发生和系统发生记忆限制:我们的突触无法记住所有经历,DNA也无法将积累的知识传给后代。此外,生物学强加了最小化推理延迟的进化偏见:在野外面对动物并确定谁是谁的猎物时,我们不能通过所有过去记忆来推理,以免决策被替我们做出。
换句话说,生物系统被迫采用归纳学习,使用过去的特定数据(或“训练集”)来设计处理任何未来数据的过程。归纳学习(或更简单地说,归纳)的推理成功依赖于所谓的归纳假设,即过去的表现可以保证未来的回报。
技术没有生物系统的限制:没有硬记忆限制(我们总是可以添加更多存储)和硬计算限制(我们可以启动更多计算机),至少直到我们达到宇宙极限。如果我们接受机器没有与生物学相同的限制,那么它们的最佳推理范式是什么?也就是说,给定训练集和测试查询,它们如何设计最佳答案?[1] 如果我们希望模型在不断发展的现实世界中运行,我们不应假设存在一个单一分布,所有数据都从中抽取。
允许在推理时处理训练数据的推理称为转导推理或转导。转导要求我们记忆和推理,不像归纳,它希望我们泛化和忘记。为了对任何未来假设分布执行最优推理,必须记住过去数据,并且仅在呈现特定查询时,部署“推理”技能并访问内存以计算该查询的最佳可能答案。
归纳要求在训练期间忘记不重要的事情,假设训练集代表所有未来数据。但在现实中,一个人无法知道什么数据在什么时候有用,所以如果负担得起,记忆是明智的,即使数据——像John Hopfield实验室墙上的文字——在那一刻没有意义。
转导推理与归纳学习
均匀泛化界限可能看起来强大,因为它们对任何分布都有效;但要让它们工作,只能有一个分布,过去和未来数据都从中独立采样。转述统计学家Bruno de Finetti,这个分布不存在于任何客观或物质意义上。它是一个抽象概念,我们想象的产物。我们编造的东西来指导我们的直觉和分析。
归纳假设基本上不可验证:任何有限训练数据都可以从无限多个分布中以相同的可能性抽取,所以即使有一个真正的分布,我们怎么知道是哪一个?一旦现在成为过去,我们就无法重复实验。归纳假设是一种信仰声明,均匀泛化界限是一种希望表达,不完全在科学领域内。
不要误会:希望可以pay off。未来往往确实 resemble 过去。但我们今天关心的许多数据生成机制,在商业、金融、气候和语言中,随时间演变。同一个词今天可能携带与一个世纪甚至十年前不同的含义。关键是,归纳假设是否成立无法提前知道。
Solomonoff推理
如果我们放弃泛化,拥抱记忆和推理呢?这是LLMs正在做的吗?如果是,它们将走向何方?最优转导推理的极限是什么?
答案由数学家Ray Solomonoff在1964年给出,现在有些 confusingly 称为Solomonoff归纳。我将称之为Solomonoff推理,它可以被认为是缩放定律的极限,当我们允许内存、计算能力和时间增长到无穷大时。
Solomonoff推理对于所有可计算分布是最优的,相对于 universal prior 平均。Church-Turing论文断言任何物理可实现的机制都属于这一类。虽然在实际中不可行,因为它需要无限资源,但Solomonoff的算法相当简单:按长度递增顺序执行所有程序,直到有一个设法逐位吐出所有观察到的数据,如果它终止。
最优算法基本上是一个带有开关的查找表。没有洞察,没有知识,甚至没有学习。如果连续两次呈现相同查询,最优算法会重复相同过程,从过去经验中没有学到任何东西。
Solomonoff推理与神经网络 quite unlike,神经网络通过比较高维空间中的梯度向量来训练,数据嵌入其中。但是,随着我们将LLMs缩放到越来越大尺寸,它们的行为是否开始 resemble Solomonoff推理?毕竟,LLMs已知记忆,尽管不完美,并且它们可以执行通用计算,至少如果 augmented with a scratchpad。确实,LLMs已经能够执行 rudimentary 转导推理,现在称为“上下文学习”——有些 confusingly,因为它不涉及学习:如果呈现相同上下文两次,LLM会重复相同过程,没有经验改进。
所以,如果LLMs开始执行Solomonoff推理,它们会变得“超级智能”吗?鉴于没有公认的智能定义,更不用说其最高级,许多人 tacitly 假设推理性能作为其代理:“更聪明”的模型(或学生)在测试中表现更好,无论是SAT、GRE、BAR,还是著名的IMO数学竞赛。分数越高,模型必须越“智能”!但绝对最好是Solomonoff的算法,无论一个人的智能定义是什么,Solomonoff的算法都无法满足它:如果错误地IMO打印每个问题两次,Solomonoff的算法会重新做相同工作两次,不完全是什么大多数人会称为“智能”行为。
作为类比,一个“归纳学生”是一个勤奋的学生,学习教科书并完成所有家庭作业和练习问题,然后参加考试。只要问题足够接近练习问题,归纳学生表现良好。在偶尔奇怪(或分布外,如归纳信徒会说)的问题上,归纳学生可能表现不佳。
相比之下,“转导学生”根本不学习,而是带着教科书参加考试。只有在阅读第一个问题后,转导学生才通过书找到所有需要组装答案的部分。原则上,学生可以重复练习直到最后一个问题,在此过程中什么也没学到。正如Solomonoff向我们展示的,如果一个人有无限时间、内存和计算能力,不需要聪明。
我们想要在基准考试中表现良好的模型,还是我们想要的“智能”是别的东西?幸运的是,归纳和转导推理并不相互排斥。事实上,它们的差异相当微妙,因为一个人可以将任一个框架为另一个的特例,并且当数据独立同分布时,两者一致。
重要的是,LLMs是归纳训练的转导推理引擎,因此可以支持两种形式的推理。[2] 它们能够通过归纳学习执行推理,像任何训练的分类器一样,类似于Daniel Kahneman的“系统1”行为——他书标题《思考,快与慢》中的快速思考。但LLMs也能够 rudimentary 形式的转导,如上下文学习和思维链,我们可以称之为系统2——慢思考——行为。我们中更 sophisticated 的人甚至教LLMs做演绎——它们涌现能力的终极测试。
AI模型的推理能力随着规模有机改进——尽管在大多数任务上它们仍然 inferior to 最好的人类。但它们也通过使用形式验证工具如LEAN actively fostered,正如在某机构发生的那样。一个人可以称这种范式为Solomonic学习:拥抱记忆和 foster 推理, yet 不回避归纳。可能受益于过去经验的简单任务可以归纳解决,节省时间和能源,但这样做需要“理解”和“洞察”。
给定那种范式,问题是什么类别的模型最好支持Solomonic学习。
Solomonic学习的架构
Solomonic学习需要模型能够在推理时记忆和执行计算,除了执行普通归纳。因此,模型架构需要 eidetic(逐字)工作内存,可能随时间 fade,以支持计算;但它们也需要长期内存以轻松检索遥远过去的事实(人类发明印刷机的目的)。
为了适应变化条件,它们需要长期内存与生成它们处理数据的机制的变化同步 decay。进化为生物代理这样做,为了物种而不是任何个体的利益。Transformers,当前LLMs的主力,有 eidetic(逐字)内存“在上下文中”,但直到令牌滑出上下文。它们也有永久内存“在权重中”,但训练数据无法从权重中 eidetically 访问,并且没有长期适应。Eidetic 长期内存可以通过RAG(检索增强生成)访问,但在当前Transformers中,RAG没有集成到主要(自回归)推理循环中。
随机实现理论和输入依赖状态空间模型
半个世纪前,随机实现理论解决了如何为下游决策或控制任务建模序列数据的问题。模型的“状态”被定义为过去数据的函数,足以用于未来,意思是,给定状态,一个人可以丢弃所有过去数据并预测未来数据,就像数据被保留一样好。
平凡状态是数据本身。根据定义,最优状态支持最优预测器,即使预测误差不可预测。然后,通过构造,状态包含过去数据中的所有“信息”。在训练期间,LLMs的状态是它们的权重,所以下一个令牌预测是训练它们的首选方法应该不足为奇。在推理期间,基于Transformer的LLM的状态是令牌的滑动窗口,它是“deadbeat”,意思是它在有限步骤中 decay 到零,没有驱动输入。
在B’MOJO中,状态空间模型(SSM)计算 fading 内存,通过固定维表示(粉色)表示长程依赖。相比之下,eidetic 内存使用创新测试 over SSM输出选择过去令牌(深蓝色x’s)并将它们附加到当前滑动窗口。改编自“B’MOJO: Hybrid state space realizations of foundation models with eidetic and fading memory”。
通常,随着我们在训练和推理中观察越来越多数据,状态必须同步增长。在1970年代,无界状态是不可想象的,所以关键问题是如何找到一个固定维状态,即使数据量增长到无穷大也是最优的。因此,随机实现理论专注于承认有限维状态的马尔可夫过程。
由于任何有限内存序列都可以建模为由白零均值高斯噪声驱动的线性模型的输出,注意力全部在线性状态空间模型(SSMs)上。虽然简单化,但这种SSMs足够好,可以带我们上月球。今天,无界状态不是不可想象的。尽管如此,LLM权重在训练后是固定的,上下文大小由硬件限制强加。所以我们需要更丰富的架构家族。
顺便说一句,我希望强调模型和系统之间的区别,模型是任何支持最优预测的状态空间实现(通常有无限多个),系统是生成数据的“真实”机制。系统未知且不可知;模型是有形的,完全 under our control。虽然作为工程师,我们被训练相信世界模型随着改进收敛到“真实”系统,但这种立场——在认识论中称为“朴素现实主义”——是科学上站不住脚的。[3]
为了强调系统和模型之间的二分法,1979年,Anders Lindqvist和Giorgio Picci推导了一个方程,四十年后,它处于扩散模型的核心。在耗散物理系统中,时间不能逆转,但在该系统的模型中可以,例如高斯SSM。模型中反向扩散的结构与正向扩散相同,这一事实在扩散模型用于图像生成中被利用。[4]
与 deadbeat Transformers 不同,SSMs有无界内存,但它 fades,使它们与最优转导推理不兼容。再次在1970年代,已故的Roger Brockett triggered 对输入依赖状态空间模型的 burst of interest,其中一些参数受输入影响,最简单的情况是当它们与状态(双)线性交互时。Art Krener表明,这种双线性SSMs可以近似任意复杂的非线性(平滑)模型。Alberto Isidori和同事将随机实现理论扩展到双线性模型,但仍然着眼于使状态尽可能小。
甚至30年后,在深度学习革命之前,当我们使用输入依赖SSMs生成动态纹理视频时,我们仍然专注于保持状态维度尽可能小, encouraged by 事实,20个状态足够动画和控制瀑布、火焰、烟雾、树叶、说话面孔和其他平稳过程的渲染。由于模型的可逆性,我们甚至可以使烟雾或蒸汽移动更快、更慢或向后!
深度学习扭曲了Occam的剃刀,试图使训练状态(权重)的嵌入维度尽可能大,而不是尽可能小。维度只是“信息”的上限,归纳的关键是限制训练权重中的“信息”,而不是其维度。[5] 二十年后,我们通过将一层的(输入依赖)预测残差馈送到下一层,将SSMs堆叠成神经架构。
突破来自Mamba,它表明硬件级的高效实现是关键。当Mamba被剥离(如我们最近关于支持转导推理的架构的论文附录E中),它是一个双线性SSMs堆栈(Mamba开发人员称为“选择性状态空间模型”)限制为非交互状态(对角动力学),所以它可以在硬件中高效实现。
对角SSMs与Transformers不相交且互补。自回归(AR)Transformers有幂零动力学,意思是状态转移矩阵在有限步骤中变为零,没有外部输入。Mamba有对角动力学,而幂零矩阵不能对角化。对角SSMs支持无限 fading 内存;AR Transformers支持有限 eidetic 内存,两者都不通用。相反,任何通用(双)线性系统可以转换为所谓的规范形式,也在1970年代推导,可以支持 eidetic 和 fading 内存。
遇见B’MOJO
B’MOJO是一个基于规范实现的架构家族,包括Transformers、类Mamba SSMs和任何两者的混合组合。有组合多种选项,游戏名称是找到那些足够通用以支持不同内存制度 yet 可以高效映射到特定硬件以缩放的。我们计划发布B’MOJO的基本版本,用于GPU硬件和某机构的Trainium硬件,所以它们可以轻松与现有Transformers、SSMs和混合架构比较。
墙上的文字
虽然“真实”系统的表示基本上难以捉摸, lending credence to 1992年John Hopfield实验室墙上的文字,构建模型实现是一个基于数据的具体练习。LLMs,其中“L”指的不是自然语言,而是在训练模型中大规模涌现的内部语言,是归纳训练为最优预测器的随机实现,并被 coopted for(次优)转导推理和生成。如果训练数据隐含潜在逻辑结构,如视觉或听觉数据等感官数据,训练为最优预测器的模型被迫捕捉它们的统计结构。
因此,我们术语中的LLMs包括所谓的世界模型,用视觉、听觉、嗅觉、触觉和其他感官数据训练。模型 indifferent to 令牌化数据是否表达自然语言中的一些抽象概念或有限精度的物理测量过程。 resulting LLMs 可以表示概念和含义,包括物理概念如物理定律,并且原则上可以推理,尽管目前它们似乎 mostly 构建 ever bigger 查找表。无论如何,作为随机动态模型,LLMs可以被控制,用因果干预探测, made observable,并用动力系统理论工具研究。
模型是底层世界的抽象——不是它的表示,因为没有客观的“它”来 re-present,而是它的实现,通过唯一客观实体(即数据)变得真实。合成数据对模型来说与物理测量过程产生的数据一样真实,对齐两者是感知的本质,因此通常称为受控幻觉。
虽然许多流行 discourse 贬低幻觉[6]作为要避免的东西,但幻觉能力对于推理是必要的。问题不是如何避免幻觉,而是如何控制它们,这是对齐过程。为决策和控制设计的架构可以帮助,并且动力系统和控制中 decades of work 可能提供见解——希望不需要 resort to 神性,如墙上的文字所暗示。
脚注
[1] 注意“最佳”不意味着“正确”。如果数据不足以识别正确结论,即使最佳答案也可能是错误的。
[2] 转导推理的最简单归纳学习形式是转导微调,一种元学习形式:过去数据用于“元训练”一个模型,在推理时,用少量示例(“少量样本”)微调以执行新任务。LLMs通过使用具有潜在逻辑结构的序列数据(不仅是自然语言,还有视频、音频和其他信号)产生“内部语言”(我们称之为“Neuralese”),然后可以 co-opted for 转导推理,将此程序步骤 further。
[3] 引用Bertrand Russell:“我们都从‘朴素现实主义’开始,即事物是它们看起来的样子的学说。……观察者,当似乎自己在观察一块石头时,如果物理学要被相信,实际上是在观察石头对他自己的影响。因此,科学似乎与自己战争:当它最意味着客观时,它发现自己违背意愿陷入主观性。朴素现实主义导致物理学,而物理学,如果真实,表明朴素现实主义是错误的。因此朴素现实主义,如果真实,是错误的;因此它是错误的。”甚至国际计量学词汇在其最新修订中已经摒弃了“真值”的概念。
[4] 在介绍扩散模型用于图像生成的论文中,反向扩散方程归因于Feller 1949年的工作。然而,正向扩散以今天使用的形式直到1960年才推导,所以反向扩散也没有。后来的参考文献将反向扩散方程归因于B. D. O. Anderson 1982年的论文,然而,它没有引入它,而是描述了它,基于Lindqvist和Picci 1979年的论文,在Anderson的工作中正确引用,并将其扩展到更通用的模型,不同于今天扩散模型中使用的那些。因此,扩散模型中使用的反向扩散方程的正确参考文献是Lindqvist-Picci 1979。
[5] 我使用引号是因为为训练模型的权重定义信息涉及一些微妙之处,但可以做到。
[6] “幻觉”是由模型生成的数据,在统计上与训练集兼容(在训练模型下高可能性的意义上), yet “错误”,即 individually 与某些外部 oracle 视为“真实”(“事实”或“公理”)的约束不一致。换句话说,幻觉是任何生成模型的产物。在数学或代码等形式化领域之外,没有客观“真理”,所以 oracle 被接受的 knowledge base 替换,这取决于应用。对于“常识”知识,基础通常是一个大型(或多或少)验证事实语料库,如WikiData。在形式化领域之外,包括法律,没有保证事实或“公理”相互兼容。