从答案到推理依据:基于答案导向思维链的多模态推理自对齐方法
实现多模态大语言模型(MLLMs)类人推理能力一直是研究目标。当前方法主要侧重于合成正向推理依据,通常依赖人工标注或复杂系统,且往往忽略负向推理,这限制了模型在多模态推理中的泛化能力和鲁棒性。
为弥补这一不足,提出新型框架:Self-Aligning Multimodal Reasoning with Answer-Oriented Chain-of-Thought(SMART)。该框架采用答案导向思维链(AoT)提示自动构建高质量数据。受人类基于证明的策略启发,AoT利用正确和错误答案提取连接问题与答案的关键视觉信息。当提供正确答案时,模型生成强正向推理依据;当用错误答案替代时,模型生成具有说服力但错误的推理路径,作为判别性负向推理依据。
使用AoT生成数据训练的模型优于基于人工标注数据集训练的模型,展现出更卓越的推理能力。因此,SMART建立了一种迭代生成-优化方法,持续增强模型推理技能。实验表明,SMART框架显著提升了各种MLLMs的性能,且不受模型架构、参数规模或预训练数据集的影响。代码可通过指定链接获取。