新型AI架构实现100倍推理速度,仅需千例训练数据
新加坡某智能机构开发出一种新型人工智能架构,该架构在复杂推理任务中不仅能媲美大型语言模型(LLMs),甚至在某些情况下大幅超越后者,同时具有更小的模型规模和更高的数据效率。
这种被称为**分层推理模型(HRM)**的架构,灵感来源于人类大脑如何利用不同系统进行缓慢缜密的规划和快速直觉的计算。该模型以当今LLMs所需数据量和内存的一小部分,实现了令人印象深刻的结果。这种效率对数据稀缺且计算资源有限的现实企业AI应用具有重要意义。
思维链推理的局限性
面对复杂问题时,当前LLMs主要依赖思维链(CoT)提示,将问题分解为基于文本的中间步骤,本质上迫使模型在求解过程中"大声思考"。
虽然CoT提升了LLMs的推理能力,但存在根本性局限。研究人员在论文中指出:“CoT推理如同拐杖而非理想解决方案。它依赖脆弱的人工定义分解,其中单个错误或步骤顺序错乱就会导致整个推理过程脱轨。”
这种对生成显式语言的依赖将模型推理束缚在词元级别,通常需要大量训练数据并产生冗长缓慢的响应。该方法还忽略了在内部发生而不需要显式语言表达的"潜在推理"。
受大脑启发的分层方法
为超越CoT,研究人员探索了"潜在推理",即模型在其内部抽象表征中进行推理,而非生成"思考词元"。这更符合人类思维方式:正如论文所述,“大脑在潜在空间中以惊人效率维持冗长连贯的推理链,无需持续转换回语言”。
然而在AI中实现这种深度内部推理具有挑战性。简单堆叠深度学习模型层数会导致"梯度消失"问题,即学习信号在层间减弱使得训练失效。另一种循环架构则可能遭遇"早熟收敛",即模型过早确定解决方案而未充分探索问题。
研究团队从神经科学中寻找解决方案,指出:“人脑为实现当代人工模型缺乏的有效计算深度提供了引人注目的蓝图。它通过在不同时间尺度运行的皮层区域分层组织计算,实现深度多阶段推理。”
受此启发,他们设计了包含两个耦合循环模块的HRM:用于缓慢抽象规划的高级(H)模块和用于快速详细计算的低级(L)模块。这种结构实现了团队称为"分层收敛"的过程。直观上,快速L模块处理部分问题,执行多个步骤直至获得稳定的局部解。此时缓慢H模块接收该结果,更新整体策略,并为L模块提供新的精细化子问题。这有效重置了L模块,防止其陷入早熟收敛,使整个系统能够通过精炼的模型架构执行长序列推理步骤而不会出现梯度消失。
HRM实战表现
研究人员在需要大量搜索和回溯的基准测试中评估HRM,包括抽象推理语料库(ARC-AGI)、极高难度数独谜题和复杂迷宫求解任务。
结果显示,HRM学会了解决即使先进LLMs也难以处理的问题。例如在"极端数独"和"困难迷宫"基准测试中,最先进的CoT模型完全失败,准确率为0%。相比之下,HRM在每个任务仅训练1000个样本后就达到接近完美的准确率。
在ARC-AGI基准测试中,2700万参数的HRM获得40.3%的分数,超越了基于CoT的更大规模模型。这种在没有大型预训练语料库且数据极其有限的情况下实现的性能,凸显了其架构的强大和高效。
实际应用价值
虽然解谜展示了模型的威力,但实际意义在于另一类问题。开发者应继续将LLMs用于基于语言或创造性的任务,但对于"复杂或确定性任务",HRM类架构以更少的幻觉提供卓越性能。特别是在延迟敏感的具身AI和机器人技术,或数据稀缺的科学探索领域,该架构表现出色。
在这些场景中,HRM不仅能解决问题,还能学会更好地解决问题。“在我们的专业级数独实验中…HRM随着训练进展需要 progressively 更少的步骤——类似于新手成为专家。”
对企业而言,这种效率直接转化为经济效益。与CoT的串行词元生成不同,HRM的并行处理可实现"任务完成时间100倍加速",这意味着更低的推理延迟和在边缘设备上运行强大推理的能力。
成本节约也相当可观:“与大型、昂贵且延迟密集的基于API的模型相比,HRM等专用推理引擎为特定复杂推理任务提供了更有前景的替代方案。“专业级数独训练仅需约2GPU小时,复杂ARC-AGI基准测试也只需50-200GPU小时——仅大型基础模型所需资源的一小部分。这为解决从物流优化到复杂系统诊断等数据和预算都有限的专门业务问题开辟了新路径。
展望未来,该机构正在努力将HRM从专用问题求解器发展为更通用的推理模块。“我们正在积极开发基于HRM的脑启发模型,“初步在医疗保健、气候预测和机器人技术领域显示出良好结果。新一代模型将通过包含自我校正能力,与当今基于文本的系统显著不同。
这项工作表明,对于困扰当今AI巨头的某类问题,前进道路可能不是更大的模型,而是受终极推理引擎——人脑启发的更智能、更结构化的架构。