多模态推理要求模型整合文本、图像、图表等多种信息源,是AI领域的核心挑战。VL-Cogito作为先进的多模态大语言模型(MLLM),通过创新的渐进课程强化学习框架(PCuRL)显著提升了模型在数学、科学、逻辑等领域的推理能力。
核心技术
-
在线难度软加权(ODSW)
动态调整训练样本权重,基于模型当前能力水平构建渐进学习曲线。通过分段函数实现"简单-中等-困难"三阶段课程,每个阶段侧重不同难度样本的梯度贡献。 -
动态长度奖励(DyLR)
根据问题复杂度自动调整推理链长度目标:简单任务鼓励简洁回答,复杂问题则促进多步推导。该机制通过计算同类问题的正确样本平均长度确定目标值。
训练流程
- 直接基于Qwen2.5-VL-Instruct-7B模型进行RL训练,无需监督微调冷启动
- 三阶段课程设置:
- 易阶段:基础概念掌握
- 中阶段:中等难度样本强化
- 难阶段:激活DyLR机制扩展推理链
- 技术参数:AdamW优化器(lr=1e-6)、DeepSpeed-ZeRO3、序列长度4096
数据构建
- 整合23个开源多模态数据集,覆盖6大任务类型
- 采用开放问答格式重构样本,避免选择题偏差
- 通过预筛选确保仅保留真实挑战性任务(基础模型正确率<50%)
性能表现 在Geometry@3K、MathVista等10个基准测试中:
- 相对基线模型提升4.9%-7.6%
- 6项任务达到SOTA水平
- 数学推理任务表现尤为突出(几何+7.6%)
关键发现
- 中等难度样本对模型进步最有效
- 动态奖励机制比固定长度目标提升显著
- 纯RL训练可完全替代监督微调
- 困难阶段训练能突破模型性能瓶颈
该研究为多模态推理系统提供了可复用的技术框架,其课程设计和动态奖励机制对复杂认知任务的模型训练具有普适意义。