多样性增强推理在主观问题中的应用
大型推理模型(LRM)凭借长链思维(CoT)能力在数学推理和编程等客观任务中表现出色。然而,在处理可能因视角不同而有多种答案的主观问题时,其效果仍受限于同质化推理倾向,这种倾向源于监督微调中对单一标准答案的依赖以及强化学习中可验证奖励的影响。
受角色视角多样性能够持续提升性能的发现启发,我们提出了MultiRole-R1——一个具有多角色视角的多样性增强框架,旨在提高主观推理任务的准确性和多样性。MultiRole-R1采用无监督数据构建流程,生成包含多样化角色视角的推理链。
我们进一步通过群体相对策略优化(GRPO)结合奖励塑造技术实施强化学习,除了可验证奖励外,还将多样性作为奖励信号。通过特殊设计的奖励函数,成功促进了视角多样性和词汇多样性,揭示了推理多样性与准确性之间的正向关系。
在六个基准测试上的实验证明了MultiRole-R1在增强主客观推理方面的有效性和泛化能力,展现了多样性增强训练在大型推理模型中的潜力。