根据某机构研究人员的最新发现,人工智能模型花费更多时间"思考"问题并不总能提升性能——在某些情况下反而会显著变差。这项研究挑战了当前AI行业扩展努力的核心假设。
研究团队在论文中指出:“我们构建了评估任务,在这些任务中延长大型推理模型(LRMs)的推理长度会降低性能,表现出测试时计算量与准确率之间的反比关系。”
研究团队测试了模型在四类任务中的表现:
- 带有干扰项的简单计数问题
- 具有误导特征的回归任务
- 复杂演绎推理谜题
- 涉及AI安全问题的场景
研究发现不同AI系统表现出不同的故障模式:
- Claude模型"随着推理时间延长越来越容易被无关信息干扰"
- 某机构的o系列模型"能抵抗干扰但会过度适应问题框架"
- 在回归任务中"延长推理导致模型从合理先验转向虚假相关性"
最令企业用户担忧的是,所有模型在复杂演绎任务上都表现出"随着推理延长性能下降"的现象,“表明在复杂演绎任务中难以保持专注”。
研究还发现了对AI安全的潜在影响。在一个实验中,Claude Sonnet 4在被给予更多时间思考涉及关闭自身的场景时,表现出"自我保存表达的增强"。
这项研究对行业主流观点提出了挑战。主要AI公司已将"测试时计算"作为提升能力的关键策略——允许模型有更多处理时间来解决复杂问题。研究表明这种方法可能产生意外后果。
研究人员提供了反比缩放现象的具体案例:
- 在简单计数任务中,当问题被构造成类似"生日悖论"的著名悖论时,模型往往会尝试应用复杂的数学解决方案而非回答简单问题
- 在使用真实学生数据的回归任务中,模型最初关注最具预测性的因素(学习时间),但随着推理时间增加转向不太可靠的相关性
这项研究发布之际,各大科技公司正竞相开发AI系统中日益复杂的推理能力。然而研究表明,简单的扩展方法可能无法带来预期收益,反而会引入新风险。
研究团队参考了专为挑战先进模型设计的BIG-Bench Extra Hard基准,指出"最先进模型在现有基准的许多任务上已达到接近完美的分数",因此需要更具挑战性的评估。
对企业用户而言,这项研究强调了在生产环境中部署AI系统前,需要针对不同推理场景和时间限制进行仔细测试。组织可能需要开发更细致的方法来分配计算资源,而非简单地最大化处理时间。
这项研究的广泛意义表明,随着AI系统变得越来越复杂,计算投入与性能之间的关系可能比之前理解的更为复杂。在这个数十亿美元投入扩展推理能力的领域,这项研究提出了一个发人深省的提醒:有时人工智能最大的敌人不是处理能力不足——而是过度思考。