测试时训练显著提升大语言模型复杂推理能力

某机构研究人员发现，通过战略性地应用测试时训练方法配合任务特定示例，可显著提升大语言模型（LLM）处理复杂推理任务的能力。该方法在需要抽象思维或战略规划的任务中，将模型准确率最高提升至原有水平的六倍。

研究团队采用测试时训练框架，该方法在模型部署期间临时更新部分内部参数。通过构建任务特定数据集（包含原始示例及经数据增强生成的新样本），并配合低秩适配技术进行高效参数微调，实现了模型在不改变基础架构前提下的临时能力提升。

关键技术要点包括：

该方法在IQ测试等复杂基准数据集上表现尤为突出，对涉及结构化模式或全新数据类型的任务改进最显著。研究同时指出，简单任务仍适合采用传统上下文学习，而测试时训练更适合开发模型的新技能。

未来研究方向包括开发能自动判断是否需要启动测试时训练的智能系统，以及实现模型的持续学习能力。该成果有望应用于医疗诊断、供应链管理等需要逻辑推理的领域。