From Answers to Rationales: Self-Aligning Multimodal Reasoning with Answer-Oriented Chain-of-Thought

📄 arXiv: 2507.02984v2 📥 PDF

作者: Wentao Tan, Qiong Cao, Yibing Zhan, Chao Xue, Changxing Ding

分类: cs.CL

发布日期: 2025-07-01 (更新: 2025-07-28)

🔗 代码/项目: GITHUB


💡 一句话要点

提出SMART框架,通过答案导向的思维链自对齐多模态推理,提升模型泛化性和鲁棒性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 思维链 自对齐学习 视觉问答 负样本学习

📋 核心要点

  1. 现有MLLM方法侧重于正向推理,依赖人工标注,忽略负向推理,导致泛化性和鲁棒性不足。
  2. SMART框架利用答案导向的思维链(AoT)提示,自动构建高质量的正负样本数据,提升模型推理能力。
  3. 实验表明,SMART框架显著提升了各种MLLM的性能,证明了其有效性和通用性。

📝 摘要(中文)

本文旨在提升多模态大语言模型(MLLM)中类人推理能力。现有方法主要关注合成正向推理,依赖人工标注或复杂系统,且忽略负向推理,限制了模型在多模态推理中的泛化性和鲁棒性。为此,我们提出了一个新框架:基于答案导向的思维链自对齐多模态推理(SMART)。SMART采用答案导向的思维链(AoT)提示,自动构建高质量数据。AoT从人类证明策略中获得灵感,利用正确和错误答案提取连接问题和答案的关键视觉信息。当提供正确答案时,模型产生强的正向推理。反之,当正确答案被错误答案替换时,模型生成错误的但引人注目的推理路径,作为一种判别性的负向推理。用AoT生成的数据训练的模型优于用人工标注数据集训练的模型,展示了卓越的推理能力。SMART建立了一个迭代生成-优化方法,不断提高模型的推理技能。实验表明,SMART框架显著改进了各种MLLM,不受模型架构、参数大小或预训练数据集的影响。

🔬 方法详解

问题定义:现有MLLM在多模态推理方面存在泛化性和鲁棒性问题。主要痛点在于:1)过度依赖人工标注的正向推理数据,成本高昂且难以覆盖所有情况;2)忽略了负向推理,模型无法有效区分正确和错误的推理路径,导致容易被误导。

核心思路:SMART框架的核心思路是利用答案导向的思维链(AoT)提示,自动生成高质量的正负样本推理数据,从而提升模型的推理能力。通过让模型基于正确和错误的答案生成相应的推理过程,可以有效地学习到区分正确和错误推理路径的能力。

技术框架:SMART框架包含两个主要阶段:1)数据生成阶段:使用AoT提示,让模型基于问题和答案(包括正确和错误答案)生成相应的推理链。2)模型训练阶段:使用生成的数据训练MLLM,使其学习到区分正确和错误推理路径的能力。该框架采用迭代生成-优化方法,不断提高模型的推理技能。

关键创新:SMART框架最重要的创新点在于提出了答案导向的思维链(AoT)提示,并将其用于自动生成正负样本推理数据。与现有方法相比,SMART无需人工标注,可以更高效地生成高质量的训练数据。此外,通过引入负样本,模型可以学习到更鲁棒的推理能力。

关键设计:AoT提示的设计是关键。它需要引导模型根据给定的答案,生成相应的推理链。对于正样本,提示引导模型生成支持正确答案的推理过程;对于负样本,提示引导模型生成看似合理但最终导致错误答案的推理过程。具体的提示模板和生成策略需要根据具体的任务进行调整。损失函数方面,可以使用交叉熵损失或对比学习损失,以鼓励模型区分正确和错误的推理路径。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用SMART框架训练的MLLM在多个基准测试中取得了显著的性能提升。例如,在VQA数据集上,SMART框架可以将模型的准确率提高5%以上,超过了使用人工标注数据训练的模型。此外,实验还证明了SMART框架的通用性,它可以有效地提升各种不同架构和参数规模的MLLM。

🎯 应用场景

SMART框架可广泛应用于各种需要多模态推理的场景,例如视觉问答、图像描述、机器人导航等。该研究的实际价值在于降低了多模态推理模型的训练成本,提高了模型的泛化性和鲁棒性。未来,该方法有望推动多模态人工智能技术的发展,使其在更多领域得到应用。

📄 摘要(原文)

Achieving human-like reasoning capabilities in Multimodal Large Language Models (MLLMs) has long been a goal. Current methods primarily focus on synthesizing positive rationales, typically relying on manual annotations or complex systems. Moreover, they often overlook negative reasoning, which limits the model's generalization ability and robustness in multimodal inference. To address this gap, we propose a novel framework: \textbf{S}elf-Aligning \textbf{M}ultimodal Reasoning with \textbf{A}nswer-O\textbf{r}iented Chain-of-\textbf{T}hought (SMART). SMART employs an answer-oriented chain-of-thought (AoT) prompt to automatically construct high-quality data. Drawing inspiration from human proof-based strategies, AoT leverages both correct and incorrect answers to extract key visual information that links questions and answers. When provided with correct answers, the model produces strong positive rationales. Conversely, when correct answers are replaced with incorrect alternatives, the model generates an erroneous yet compelling reasoning path, serving as a form of discriminative negative rationale. Models trained with AoT-generated data outperform those trained on manually annotated datasets, demonstrating superior reasoning capabilities. Consequently, SMART establishes an iterative generation-optimization method that continually enhances the model's reasoning skills. Experiments indicate that the SMART framework significantly improves various MLLMs, regardless of model architecture, parameter size, or pre-training dataset. The code is available at https://github.com/WentaoTan/SMART.