新型AI架构实现比LLM快100倍的推理速度

新加坡某人工智能机构Sapient Intelligence开发出新型AI架构——层次化推理模型（HRM），该模型在复杂推理任务上可媲美甚至大幅超越大语言模型（LLM），同时具有更小的模型体积和更高的数据效率。

思维链推理的局限性

当前LLM面对复杂问题时主要依赖思维链（CoT）提示，将问题分解为基于文本的中间步骤。研究人员指出：“CoT推理如同拐杖而非终极方案，它依赖脆弱的人工分解流程，单个步骤错误或顺序混乱就会导致整个推理过程失败。”

这种显式语言生成方式将推理束缚在词元层面，需要大量训练数据且响应速度缓慢，同时忽略了无需语言显式表达的"潜在推理"能力。

HRM采用双模块耦合架构：

通过"层次化收敛"机制，L模块快速解决局部问题后，H模块更新整体策略并分配新的子任务，有效避免早期收敛和梯度消失问题。这种嵌套循环设计使模型能在潜在空间进行深度推理，无需长提示词或海量数据。

在多项测试中HRM展现卓越性能：

Sudoku-Extreme和Maze-Hard基准测试：CoT模型准确率为0%，HRM达到近100%准确率
ARC-AGI抽象推理测试：2700万参数的HRM获得40.3%准确率，超越某中心的o3-mini-high（34.5%）和某机构的Claude 3.7 Sonnet（21.2%）
训练效率：专业级数独训练仅需2GPU小时，ARC-AGI基准测试仅需50-200GPU小时

该架构特别适用于：

相比CoT的串行处理，HRM的并行处理带来100倍的任务完成速度提升，显著降低推理延迟并支持边缘设备部署。某机构CEO表示：“针对特定复杂推理任务，专业化推理引擎比庞大、昂贵且延迟高的API模型更具优势。”

该机构正在开发基于HRM的下一代模型，重点探索：

这项研究表明，解决当前AI难题的关键可能不在于构建更大模型，而是通过模仿人脑推理机制设计更智能的结构化架构。