生物学与技术的认知分界
传统机器学习受生物学启发,强调泛化优于记忆。但生物系统受限于记忆容量和进化压力,必须采用归纳学习。技术系统则突破这些限制,可同时支持归纳推理(训练时泛化)和转导推理(推理时记忆与计算)。最优推断范式应放弃单一数据分布的假设,转向索罗门推断——这种理论极限要求无限资源,通过执行所有可能程序来精确匹配观察数据。
索罗门推断与LLM进化
1964年Ray Solomonoff提出的最优算法本质是带开关的查找表,无需学习过程。当前LLMs通过以下特性逼近该范式:
- 记忆能力:虽不完美但持续增强的参数记忆
- 计算通用性:配合草稿纸可实现图灵完备
- 上下文学习:原始转导推理形式(相同上下文重复处理)
混合架构B’MOJO设计
为支持索罗门学习,需要融合两种记忆系统:
- 瞬时记忆:Transformer的滑动窗口上下文(有限精确记忆)
- 长期记忆:状态空间模型(SSM)的渐消记忆(如Mamba的对角动力学)
B’MOJO通过规范实现框架整合:
- 双通道处理:SSM层处理长程依赖,Transformer层处理局部关系
- 创新测试机制:动态选择历史token注入当前上下文窗口
- 硬件优化:针对GPU和某中心Trainium芯片分别优化实现
随机实现理论启示
1970年代发展的随机实现理论为模型设计提供关键洞见:
- 状态定义:过去数据的充分统计量,支持最优预测
- 可逆性:扩散模型的反向过程源于线性SSM的时间可逆特性
- 输入依赖:双线性SSM(如Mamba)可逼近任意非线性系统
对齐与受控幻觉
模型作为数据实现的抽象系统:
- 必要幻觉:生成符合统计规律但违反外部约束的输出是推理的基础能力
- 动态对齐:需借鉴控制系统理论约束生成过程,而非消除幻觉