所罗门学习法:大语言模型与归纳艺术
大语言模型的涌现能力随规模扩大而提升,但规模增长的极限何在?从雷·所罗门夫的归纳理论和随机实现理论中,我们或可窥见规模扩展的边界与方向。
生物学与技术的分野
传统机器学习推崇泛化而贬低记忆,但生物系统受限于硬性记忆边界和推理延迟最小化需求。技术系统则无此限制——存储和算力可无限扩展。若机器不受生物学约束,什么才是最佳推理范式?
转导推理:记忆与计算的协同
转导推理要求记忆过去数据,并在遇到查询时实时调用推理能力。这与强调泛化的归纳推理形成对比:当未来数据分布不可预知时,记忆所有历史数据才是最优策略。所罗门夫推理算法正是这种范式的理论极限——通过执行所有可能程序来匹配观测数据。
大语言模型的双重推理能力
当前大语言模型既是归纳训练的产物,又能进行转导推理。它们既支持类似人类"系统1"的快速归纳推理,也具备"系统2"的慢速转导推理能力(如上下文学习、思维链)。这种双重能力使模型可灵活应对不同任务需求。
B’MOJO:支持所罗门学习的新架构
为同时支持记忆与计算,需要兼具遗觉记忆(精确记忆)和渐消记忆的模型架构。B’MOJO基于典型实现理论,融合了Transformer的有限遗觉记忆和Mamba式状态空间模型的无限渐消记忆。该架构通过创新测试动态选择历史标记,实现记忆机制与计算效率的平衡。
模型与现实的哲学思考
模型是对世界的抽象实现而非客观再现——“真实"系统本质不可知。大语言模型作为随机动力系统,可以通过动力系统理论工具进行控制和分析。其"幻觉"能力实为推理的必要条件,关键在于通过对齐过程实现可控生成。