MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale

作者: Jarvis Guo, Tuney Zheng, Yuelin Bai, Bo Li, Yubo Wang, King Zhu, Yizhi Li, Graham Neubig, Wenhu Chen, Xiang Yue

分类: cs.CL, cs.CV

发布日期: 2024-12-06 (更新: 2025-06-04)

备注: ACL 2025 Main

💡 一句话要点

MAmmoTH-VL：通过大规模指令微调提升多模态大语言模型的推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 指令微调 推理能力 数据集构建 链式思考

📋 核心要点

现有的多模态指令微调数据集主要来源于VQA等学术数据集，任务简单，缺乏中间推理过程，限制了MLLM的推理能力。
论文提出一种可扩展的方法，利用开源模型构建包含1200万指令-响应对的大规模数据集，该数据集包含丰富的中间推理过程。
实验表明，在该数据集上训练的MLLM显著提高了推理能力，并在多个基准测试中取得了SOTA性能，同时在非推理任务上也有提升。

📝 摘要（中文）

本文提出了一种可扩展且经济高效的方法，用于构建大规模多模态指令微调数据集，该数据集包含丰富的中间推理过程，旨在激发CoT（Chain-of-Thought）推理。该方法仅使用开源模型，创建了一个包含1200万个指令-响应对的数据集，涵盖了各种推理密集型任务，并提供了详细且忠实的推理过程。实验表明，在此数据集上训练多模态大语言模型（MLLM）可以显著提高推理能力，在MathVerse（+8.1%）、MMMU-Pro（+7%）和MuirBench（+13.3%）等基准测试中实现了最先进的性能。此外，该模型在非推理基准测试中也表现出高达4%的显著改进。消融研究进一步强调了数据集构建过程中关键组件（如重写和自过滤）的重要性。

🔬 方法详解

问题定义：现有的大部分多模态大语言模型（MLLMs）的推理能力受限于指令微调数据集的质量。这些数据集通常是为简单的任务设计的，例如视觉问答（VQA），并且只提供短语级别的答案，缺乏中间推理步骤，导致模型难以进行复杂的推理。

核心思路：论文的核心思路是构建一个大规模、高质量的多模态指令微调数据集，其中包含详细的中间推理过程（CoT）。通过让模型学习如何逐步推理，从而提升其在复杂任务上的表现。该数据集的构建过程完全基于开源模型，降低了成本。

技术框架：该方法主要包含以下几个阶段：1) 指令生成：利用大型语言模型（LLM）生成多样化的、推理密集型的指令。2) 响应生成：使用LLM对生成的指令进行响应，并生成详细的推理过程。3) 重写：对生成的指令和响应进行重写，以提高数据质量和多样性。4) 自过滤：使用LLM对生成的数据进行过滤，去除不准确或不合理的推理过程。

关键创新：该论文的关键创新在于提出了一种可扩展且经济高效的方法，用于构建大规模、高质量的多模态指令微调数据集。该方法利用开源模型，避免了对昂贵API的依赖，并且通过重写和自过滤等技术，保证了数据的质量和多样性。此外，该数据集专注于推理密集型任务，能够有效提升MLLM的推理能力。

关键设计：在数据集构建过程中，论文采用了多种策略来保证数据质量。例如，在指令生成阶段，使用了多种prompting技术来生成多样化的指令。在响应生成阶段，使用了温度系数来控制生成文本的随机性。在重写阶段，使用了不同的重写策略来提高数据质量。在自过滤阶段，使用了LLM对生成的推理过程进行评分，并去除低分数据。

📊 实验亮点

实验结果表明，使用MAmmoTH-VL数据集训练的MLLM在多个推理基准测试中取得了显著的性能提升，例如在MathVerse上提升了8.1%，在MMMU-Pro上提升了7%，在MuirBench上提升了13.3%。此外，该模型在非推理基准测试中也表现出高达4%的改进，证明了该数据集的有效性和泛化能力。

🎯 应用场景

该研究成果可广泛应用于需要多模态理解和推理的场景，例如智能客服、教育辅导、医疗诊断、自动驾驶等。通过提升多模态大语言模型的推理能力，可以使其更好地理解复杂场景，并做出更准确的决策，从而提高工作效率和用户体验。

📄 摘要（原文）

Open-source multimodal large language models (MLLMs) have shown significant potential in a broad range of multimodal tasks. However, their reasoning capabilities remain constrained by existing instruction-tuning datasets, which were predominately repurposed from academic datasets such as VQA, AI2D, and ChartQA. These datasets target simplistic tasks, and only provide phrase-level answers without any intermediate rationales. To address these challenges, we introduce a scalable and cost-effective method to construct a large-scale multimodal instruction-tuning dataset with rich intermediate rationales designed to elicit CoT reasoning. Using only open models, we create a dataset containing 12M instruction-response pairs to cover diverse, reasoning-intensive tasks with detailed and faithful rationales. Experiments demonstrate that training MLLMs on this dataset significantly improves reasoning capabilities, achieving state-of-the-art performance on benchmarks such as MathVerse (+8.1%), MMMU-Pro (+7%), and MuirBench (+13.3%). Additionally, the model demonstrates notable improvements of up to 4% on non-reasoning-based benchmarks. Ablation studies further highlight the importance of key components, such as rewriting and self-filtering, in the dataset construction process.

MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理