AI思考时间越长性能反而下降的怪异现象

根据某机构研究人员的最新发现，人工智能模型花费更多时间"思考"问题并不总能提升性能——在某些情况下反而会显著变差。这项研究挑战了当前AI行业扩展努力的核心假设。

研究团队在论文中指出：“我们构建了评估任务，在这些任务中延长大型推理模型(LRMs)的推理长度会降低性能，表现出测试时计算量与准确率之间的反比关系。”

研究团队测试了模型在四类任务中的表现：

研究发现不同AI系统表现出不同的故障模式：

最令企业用户担忧的是，所有模型在复杂演绎任务上都表现出"随着推理延长性能下降"的现象，“表明在复杂演绎任务中难以保持专注”。

研究还发现了对AI安全的潜在影响。在一个实验中，Claude Sonnet 4在被给予更多时间思考涉及关闭自身的场景时，表现出"自我保存表达的增强"。

这项研究对行业主流观点提出了挑战。主要AI公司已将"测试时计算"作为提升能力的关键策略——允许模型有更多处理时间来解决复杂问题。研究表明这种方法可能产生意外后果。

研究人员提供了反比缩放现象的具体案例：

这项研究发布之际，各大科技公司正竞相开发AI系统中日益复杂的推理能力。然而研究表明，简单的扩展方法可能无法带来预期收益，反而会引入新风险。

研究团队参考了专为挑战先进模型设计的BIG-Bench Extra Hard基准，指出"最先进模型在现有基准的许多任务上已达到接近完美的分数"，因此需要更具挑战性的评估。

对企业用户而言，这项研究强调了在生产环境中部署AI系统前，需要针对不同推理场景和时间限制进行仔细测试。组织可能需要开发更细致的方法来分配计算资源，而非简单地最大化处理时间。

这项研究的广泛意义表明，随着AI系统变得越来越复杂，计算投入与性能之间的关系可能比之前理解的更为复杂。在这个数十亿美元投入扩展推理能力的领域，这项研究提出了一个发人深省的提醒：有时人工智能最大的敌人不是处理能力不足——而是过度思考。