MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale
作者: Jarvis Guo, Tuney Zheng, Yuelin Bai, Bo Li, Yubo Wang, King Zhu, Yizhi Li, Graham Neubig, Wenhu Chen, Xiang Yue
分类: cs.CL, cs.CV
发布日期: 2024-12-06 (更新: 2025-06-04)
备注: ACL 2025 Main
💡 一句话要点
MAmmoTH-VL:通过大规模指令微调提升多模态大语言模型的推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 指令微调 推理能力 数据集构建 链式思考
📋 核心要点
- 现有的多模态指令微调数据集主要来源于VQA等学术数据集,任务简单,缺乏中间推理过程,限制了MLLM的推理能力。
- 论文提出一种可扩展的方法,利用开源模型构建包含1200万指令-响应对的大规模数据集,该数据集包含丰富的中间推理过程。
- 实验表明,在该数据集上训练的MLLM显著提高了推理能力,并在多个基准测试中取得了SOTA性能,同时在非推理任务上也有提升。
📝 摘要(中文)
本文提出了一种可扩展且经济高效的方法,用于构建大规模多模态指令微调数据集,该数据集包含丰富的中间推理过程,旨在激发CoT(Chain-of-Thought)推理。该方法仅使用开源模型,创建了一个包含1200万个指令-响应对的数据集,涵盖了各种推理密集型任务,并提供了详细且忠实的推理过程。实验表明,在此数据集上训练多模态大语言模型(MLLM)可以显著提高推理能力,在MathVerse(+8.1%)、MMMU-Pro(+7%)和MuirBench(+13.3%)等基准测试中实现了最先进的性能。此外,该模型在非推理基准测试中也表现出高达4%的显著改进。消融研究进一步强调了数据集构建过程中关键组件(如重写和自过滤)的重要性。
🔬 方法详解
问题定义:现有的大部分多模态大语言模型(MLLMs)的推理能力受限于指令微调数据集的质量。这些数据集通常是为简单的任务设计的,例如视觉问答(VQA),并且只提供短语级别的答案,缺乏中间推理步骤,导致模型难以进行复杂的推理。
核心思路:论文的核心思路是构建一个大规模、高质量的多模态指令微调数据集,其中包含详细的中间推理过程(CoT)。通过让模型学习如何逐步推理,从而提升其在复杂任务上的表现。该数据集的构建过程完全基于开源模型,降低了成本。
技术框架:该方法主要包含以下几个阶段:1) 指令生成:利用大型语言模型(LLM)生成多样化的、推理密集型的指令。2) 响应生成:使用LLM对生成的指令进行响应,并生成详细的推理过程。3) 重写:对生成的指令和响应进行重写,以提高数据质量和多样性。4) 自过滤:使用LLM对生成的数据进行过滤,去除不准确或不合理的推理过程。
关键创新:该论文的关键创新在于提出了一种可扩展且经济高效的方法,用于构建大规模、高质量的多模态指令微调数据集。该方法利用开源模型,避免了对昂贵API的依赖,并且通过重写和自过滤等技术,保证了数据的质量和多样性。此外,该数据集专注于推理密集型任务,能够有效提升MLLM的推理能力。
关键设计:在数据集构建过程中,论文采用了多种策略来保证数据质量。例如,在指令生成阶段,使用了多种prompting技术来生成多样化的指令。在响应生成阶段,使用了温度系数来控制生成文本的随机性。在重写阶段,使用了不同的重写策略来提高数据质量。在自过滤阶段,使用了LLM对生成的推理过程进行评分,并去除低分数据。
📊 实验亮点
实验结果表明,使用MAmmoTH-VL数据集训练的MLLM在多个推理基准测试中取得了显著的性能提升,例如在MathVerse上提升了8.1%,在MMMU-Pro上提升了7%,在MuirBench上提升了13.3%。此外,该模型在非推理基准测试中也表现出高达4%的改进,证明了该数据集的有效性和泛化能力。
🎯 应用场景
该研究成果可广泛应用于需要多模态理解和推理的场景,例如智能客服、教育辅导、医疗诊断、自动驾驶等。通过提升多模态大语言模型的推理能力,可以使其更好地理解复杂场景,并做出更准确的决策,从而提高工作效率和用户体验。
📄 摘要(原文)
Open-source multimodal large language models (MLLMs) have shown significant potential in a broad range of multimodal tasks. However, their reasoning capabilities remain constrained by existing instruction-tuning datasets, which were predominately repurposed from academic datasets such as VQA, AI2D, and ChartQA. These datasets target simplistic tasks, and only provide phrase-level answers without any intermediate rationales. To address these challenges, we introduce a scalable and cost-effective method to construct a large-scale multimodal instruction-tuning dataset with rich intermediate rationales designed to elicit CoT reasoning. Using only open models, we create a dataset containing 12M instruction-response pairs to cover diverse, reasoning-intensive tasks with detailed and faithful rationales. Experiments demonstrate that training MLLMs on this dataset significantly improves reasoning capabilities, achieving state-of-the-art performance on benchmarks such as MathVerse (+8.1%), MMMU-Pro (+7%), and MuirBench (+13.3%). Additionally, the model demonstrates notable improvements of up to 4% on non-reasoning-based benchmarks. Ablation studies further highlight the importance of key components, such as rewriting and self-filtering, in the dataset construction process.