从答案到推理依据：基于答案导向思维链的多模态推理自对齐方法

实现多模态大语言模型（MLLMs）类人推理能力一直是研究目标。当前方法主要侧重于合成正向推理依据，通常依赖人工标注或复杂系统，且往往忽略负向推理，这限制了模型在多模态推理中的泛化能力和鲁棒性。

为弥补这一不足，提出新型框架：Self-Aligning Multimodal Reasoning with Answer-Oriented Chain-of-Thought（SMART）。该框架采用答案导向思维链（AoT）提示自动构建高质量数据。受人类基于证明的策略启发，AoT利用正确和错误答案提取连接问题与答案的关键视觉信息。当提供正确答案时，模型生成强正向推理依据；当用错误答案替代时，模型生成具有说服力但错误的推理路径，作为判别性负向推理依据。

使用AoT生成数据训练的模型优于基于人工标注数据集训练的模型，展现出更卓越的推理能力。因此，SMART建立了一种迭代生成-优化方法，持续增强模型推理技能。实验表明，SMART框架显著提升了各种MLLMs的性能，且不受模型架构、参数规模或预训练数据集的影响。代码可通过指定链接获取。