当规模不再重要:全面解析HRM模型的技术革命

新加坡初创公司Sapient Intelligence开发的HRM模型仅用2700万参数就超越了数十亿参数的大型AI模型。这种受大脑启发的分层推理架构通过高低层模块的迭代对话实现真正推理,在复杂任务中表现卓越,且训练效率极高。

当规模不再重要:全面解析HRM模型的技术革命

近年来人工智能领域最大的革命并非来自OpenAI或谷歌的实验室,而是来自新加坡一家名为Sapient Intelligence的小型初创公司。这个故事的主角叫做分层推理模型(HRM),这个AI智能体正在以一个看似不可能的承诺撼动整个行业的基础:使用其竞争对手的一小部分资源,实现比AI巨头更好的推理能力。

这不是通常的语言模型

HRM不是那种扩展到惊人规模的常规语言模型,也不是变换器主题的另一个变体。HRM的构建方式不同,直接受到人脑功能的启发,其取得的结果简直令人震惊。这个模型仅用2700万个参数(不到第一个GPT模型的四分之一),在复杂推理任务中系统性地超越了比它大四倍的模型。更令人惊讶的是,它每个问题仅用一千个示例进行训练,而其对手则需要海量数据和在世界上最强大的服务器上数月的处理时间。

但HRM真正的魔力不在于其小规模或训练效率。其创新在于它不像其他模型那样仅仅处理信息:它真正地进行推理,以几个月前还像是科幻小说般的方式模拟人类认知过程。结果不言自明:在其他模型完全失败的地方,HRM以更像思考中的大脑而非计算器的自然度表现出色。

当思维链断裂时

要理解HRM带来的革命重要性,我们必须首先了解当前人工智能模型的工作原理,以及为什么它们的局限性变得越来越明显。ChatGPT、Claude、Gemini及其所有前辈都基于一种称为“思维链”的技术,这种方法听起来很有希望,但隐藏着深刻的结构脆弱性。

想象一下,你必须用不可擦除的笔写下来解决一个复杂的数学问题,永远无法回头检查或纠正所写的内容。这正是当前模型的工作方式:它们逐步引导自己解决问题,几乎是在“自言自语”,但即使在这个链中犯了一个小错误,整个答案都可能像纸牌屋一样崩溃。

正如Sapient Intelligence的研究人员在科学论文中解释的那样,“用于推理的思维链是一个拐杖,而不是一个令人满意的解决方案。它依赖于脆弱、人为定义的分解,其中一个失误或步骤混乱就可能完全破坏推理过程。”

这个问题比看起来更深层次。基于变换器的模型(主导现代AI的架构)无论问题难度如何,总是执行相同数量的“思考”。这就像侦探必须花费完全相同的时间和资源来解决自行车盗窃案和复杂的谋杀案。他们不能说“这很难,我需要更多时间思考”,而且一旦开始生成答案,就无法重新审视自己的推理。

这种刚性具有巨大的实际后果。当前模型被迫将每个推理过程转化为显式语言,产生冗长、缓慢且通常冗余的答案。更糟糕的是,这种对语言的依赖使它们容易受到级联错误的影响:如果中间步骤出错,后续所有内容都会受到影响,无论其基本推理技能可能有多正确。

模仿大脑的架构

HRM完全放弃了这个范式,采用了一种其创建者描述为“受大脑启发”的 radically不同的方法。这不是一个肤浅的隐喻或营销:HRM的架构直接借鉴了人脑的分层决策策略,将其应用于人工智能,其结果正在重新定义机器学习领域的可能性。

HRM的核心是两个像完美协调的二人组一样协同工作的组件。第一个是高级规划器,我们可以将其想象为“缓慢的战略大脑”,它观察大局,识别要解决的问题类型,并绘制要遵循的方法的总体地图。第二个是低级执行器,即“快速处理器”,它接收规划器的命令并以精确和速度执行它们。

最恰当的类比是国际象棋大师与极其高效的助手合作。大师研究棋盘,规划整体策略,并决定要走哪一步,而助手则以毫米精度实际执行移动。但这里的相似之处变得更有趣:两者不仅限于单次信息交换,而是在整个问题解决期间保持持续对话。

这是HRM创新的核心:分层推理循环。高级模块制定战略计划并将其传递给低级模块,低级模块执行并返回结果。此时,高级模块分析发生的情况,根据新数据更新其策略,并为低级模块提供一个新的精炼子问题来处理。这种“来回”在迭代循环中持续,直到模型收敛到最优解。

这种方法的优点在于,它允许HRM在处理问题时内部控制和精炼自己的推理,这是绝大多数其他模型根本不具备的能力。这就像在解决那个用不可擦除笔写的数学问题时,突然有人允许你擦除、重写和重新思考每一步,直到你完全确定解决方案。

但还有更多。HRM最先进的版本使用强化学习来自主决定每种任务类型需要多少次迭代,使其更加类似于灵活的人类思维。正如我们在复杂问题上比简单问题投入更多时间和脑力一样,HRM学会根据所面临问题的内在难度来调节其推理周期。

大卫vs歌利亚:令人震惊的数字

HRM在最困难的推理基准测试中取得的结果是那种让该领域最持怀疑态度的专家都扬起眉毛的数字。我们谈论的是一个仅用2700万个参数的模型,它不仅与拥有数十亿参数的巨头竞争,而且在需要深度和抽象推理的任务中系统性地超越它们。

在ARC-AGI基准测试(被认为是衡量人工智能抽象和泛化推理能力最可靠的测试之一)中,HRM取得了40.3%的分数,超越了更大的模型,如OpenAI的o3-mini-high(34.5%)和Claude 3.7 Sonnet(21.2%)。这些不是小的、统计上不显著的差异:我们谈论的是实质性的性能差距,在AI世界中,这相当于代际飞跃。

但在最极端的推理任务上,HRM真正展示了其架构优势。在极端难度的数独测试和复杂迷宫中,差异变得巨大。HRM解决了55%的最难数独,而基于思维链的模型得分是惊人的0%。在30×30网格迷宫中也取得了相同的结果:HRM在74.5%的情况下找到了最优路径,而其竞争对手则以0%停留在起点。

这是AI版本的尤达格言:“大小不重要。看看我。你以我的大小来判断我吗?”只是在这种情况下,原力是分层架构,而卢克·天行者是那些不断在沼泽中坠毁的拥有数十亿参数的模型。

这些不仅仅是表格上的数字:它们代表了能够处理复杂现实世界问题的人工智能与在面对需要超越表面推理的挑战时陷入困境的人工智能之间的区别。这是能够帮助您应对复杂决策的助手与最多只能帮助您写更雄辩的电子邮件助手之间的区别。

但也许所有事实中最令人印象深刻的是训练效率。虽然传统语言模型需要从整个互联网提取的巨大数据集和在世界上最强大的超级计算机上数月的处理时间,但HRM每个任务仅用一千个示例进行训练。正如Sapient Intelligence的创始人之一Guan Wang所说,“你可以在两小时的GPU上训练它达到专业水平的数独”——这种效率他字面意思上定义为“荒谬的”,以最好的意义。

超越基准:结构革命

在标准化测试上的令人印象深刻的结果只是冰山一角。HRM带来的真正革命在于其解决困扰整个当前一代基于变换器的模型的基本结构问题的能力,这些问题直到最近似乎还是人工智能景观中不可避免的一部分。

其中第一个也是最显著的问题是内存效率。传统的变换器 notoriously 资源饥渴,需要大量内存来运行,甚至更多来训练。相比之下,HRM使用更多的局部梯度更新,这些更新更容易计算且“在生物学上更合理”,避免了著名的“通过时间的深度反向传播”,后者内存密集且计算缓慢。

这种内存效率不是一个简单的渐进改进:它是一个范式转变,开辟了全新的场景。更少的内存意味着能够在相同的硬件上同时运行更多模型,用更少的资源更快地训练,最重要的是,将先进的人工智能带到直到昨天还无法想象的设备上。我们谈论的是普通笔记本电脑、边缘设备、机器人,甚至汽车——所有这些地方AI都可以自主运行,而不依赖于恒定的互联网连接或远程服务器。

Sapient公司已经在现实世界应用中测试HRM,展示了这种多功能性。在医疗保健领域,该模型用于帮助诊断罕见疾病,这些复杂病理恰好需要HRM擅长的深度和细致推理。在季节性气候预测中,它达到了97%的准确率,在气象学世界中这几乎是科幻小说的结果。

但也许HRM最令人鼓舞的方面是它背后的团队。这些不是在车库里工作的不知名研究人员:该小组包括来自DeepMind、Anthropic、DeepSeek,甚至Elon Musk的XAI集团的前工程师。这些人在人工智能前沿工作了多年,现在把所有赌注都押在HRM受大脑启发的设计上。当这种水平的专业人士放弃大型科技巨头的确定性来追求另一种愿景时,值得关注。

Sapient Intelligence的CEO兼创始人Guan Wang在谈论人工智能未来时毫不含糊。他的愿景是,AGI(人工通用智能)是关于赋予机器人类水平及以上的智能。根据Wang的说法,思维链只是一个“捷径”,而他们构建的东西“可以思考”,在真正的意义上。

开源和透明度:给社区的礼物

在大型AI实验室倾向于对其最先进模型保持越来越严格的商业秘密的时代,Sapient Intelligence决定使HRM完全开源是 transparency 的 almost 革命性行为。整个项目可在GitHub上获得,允许世界上任何人验证它、训练自己的版本、修改它或在其基础上构建。对于如此有前途和战略重要的创新,这种开放水平是罕见的。

当然,HRM仍有其创建者公开承认的局限性。目前,该模型比大型通用语言模型 focus 更窄:它构建用于推理,而不是友好聊天或写浪漫诗歌。但正是这种专业化使其在其领域中如此强大。这是该行业见过的最强有力的概念证明之一,证明AI的未来可能不在于 ever larger 和更通用的模型,而在于更智能和更专业的架构。

HRM不是目前进行的唯一此类实验。AI研究 landscape 正在经历创造性沸腾的时刻,世界各地的团队正在探索替代主导变换器的架构。有Sakana及其连续思维机器、承诺极端效率的1-bit LLM模型,以及谷歌基于扩散的推理模型。但有一个关键区别:HRM“已经在工作”,并以一小部分训练数据超越更大的模型,且不需要大规模预训练。

这表明我们正在见证一个基本的范式转变。人工智能的下一个巨大飞跃可能不是另一个“扩展到更庞大尺寸的GPT克隆”,而是类似于HRM的东西:一种新架构,带来更好的推理、更快的训练和更便宜的实现,所有这些都不需要充满消耗整个城市电力的GPU的数据中心。

真正思考的未来

展望未来,从HRM工作中出现的愿景是这样一个未来:人工智能不再局限于大型科技公司的数据中心,而是成为我们日常生活中 pervasive 和 accessible 的存在。想象一下AI智能体存在于我们的笔记本电脑、家庭机器人、汽车,甚至可穿戴设备中,所有这些都能够进行 sophisticated 推理,而不依赖于恒定的互联网连接或昂贵的远程服务器。

这种先进人工智能的民主化可能对我们工作、学习和解决问题的方式产生深远影响。农村诊所的医生可以访问与大都市医院相同的先进诊断工具。在偏远建筑工地工作的工程师可以实时获得复杂的结构分析。预算有限的研究人员可以探索复杂的科学假设,而不必竞争超级计算机的访问权。

但也许所有方面最迷人的是这些AI智能体将不再仅仅与互联网“对话”或 regurgitate 其他地方处理的信息的想法。它们将开始“真正思考”,在最深层的意义上,制定原创解决方案,制定创造性假设,甚至可能发展出我们人类从未考虑过的见解。

像任何技术革命一样,这种转变将带来我们必须面对的新挑战和伦理问题。但如果HRM和类似架构兑现其承诺,我们可能正处于一个时代的门槛上,在这个时代,人工智能最终成为其名称所承诺的东西:不仅仅是一个复杂的信息处理系统,而是一个真正的 intellectual 伙伴,能够进行自主和创造性推理。

正如Tony Stark所说,有时最好的解决方案不是建造更大的装甲服,而是建造更智能的装甲服。而HRM可能已经找到了一种方法,用更优雅和高效的东西取代计算蛮力。

道路仍然漫长且充满未知,但有一件事是确定的:新加坡初创公司创建的小型2700万参数模型已经表明,在人工智能世界中,正如科学中经常发生的那样,质量确实可以战胜数量。也许,就像最好的大卫和歌利亚故事中一样,正是最小的那个向我们展示了通往未来的道路。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计