多模态推理自对齐:答案导向思维链技术

本文提出SMART框架,通过答案导向思维链自动构建高质量训练数据,利用正确和错误答案生成正负推理路径,显著提升多模态大语言模型的推理能力和泛化性能,适用于不同架构和规模的模型。

从答案到推理依据:基于答案导向思维链的多模态推理自对齐方法

实现多模态大语言模型(MLLMs)类人推理能力一直是研究目标。当前方法主要侧重于合成正向推理依据,通常依赖人工标注或复杂系统,且往往忽略负向推理,这限制了模型在多模态推理中的泛化能力和鲁棒性。

为弥补这一不足,提出新型框架:Self-Aligning Multimodal Reasoning with Answer-Oriented Chain-of-Thought(SMART)。该框架采用答案导向思维链(AoT)提示自动构建高质量数据。受人类基于证明的策略启发,AoT利用正确和错误答案提取连接问题与答案的关键视觉信息。当提供正确答案时,模型生成强正向推理依据;当用错误答案替代时,模型生成具有说服力但错误的推理路径,作为判别性负向推理依据。

使用AoT生成数据训练的模型优于基于人工标注数据集训练的模型,展现出更卓越的推理能力。因此,SMART建立了一种迭代生成-优化方法,持续增强模型推理技能。实验表明,SMART框架显著提升了各种MLLMs的性能,且不受模型架构、参数规模或预训练数据集的影响。代码可通过指定链接获取。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计