MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning

作者: Tianhong Gao, Yannian Fu, Weiqun Wu, Haixiao Yue, Shanshan Liu, Gang Zhang

分类: cs.CV

发布日期: 2025-07-29

🔗 代码/项目: GITHUB

💡 一句话要点

提出MMAT-1M：一个大规模多模态Agent Tuning推理数据集，用于提升多模态大模型的推理和工具使用能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 Agent Tuning 大型语言模型 数据集 推理 工具使用 检索增强生成 思维链

📋 核心要点

多模态大模型缺乏大规模高质量的Agent Tuning数据集，限制了其在复杂推理和工具使用方面的潜力。
论文提出MMAT-1M数据集，通过四阶段数据引擎，融合CoT、RAG和反思机制，生成高质量的多模态Agent Tuning数据。
实验表明，在MMAT-1M上微调的模型在多个基准测试中取得显著性能提升，验证了数据集的有效性。

📝 摘要（中文）

大型语言模型（LLMs）通过Agent Tuning得到增强，在思维链（CoT）和工具利用方面表现出卓越的能力，显著超越了独立模型。然而，多模态领域仍然缺乏大规模、高质量的Agent Tuning数据集，以充分释放多模态大型语言模型的潜力。为了弥补这一差距，我们推出了MMAT-1M，这是首个百万级多模态Agent Tuning数据集，旨在支持CoT、反思和动态工具使用。我们的数据集通过一种新颖的四阶段数据引擎构建：1）我们首先整理包含问答对的公开多模态数据集；2）然后，利用GPT-4o，我们为原始问答对生成理由，并通过多轮范式动态集成API调用和检索增强生成（RAG）信息；3）此外，我们通过反思来完善理由，以确保逻辑一致性和准确性，从而创建一个具有理由和反思（RR）的多轮对话数据集；4）最后，为了提高效率，我们可选择将多轮对话压缩为单轮理由和反思（ORR）格式。通过在MMAT-1M上微调开源多模态模型，我们观察到显著的性能提升。例如，InternVL2.5-8B-RR模型在八个公共基准测试中平均提高了2.7%，在RAG基准测试Dyn-VQA上提高了8.8%，证明了该数据集在增强多模态推理和基于工具的能力方面的有效性。该数据集可在https://github.com/VIS-MPU-Agent/MMAT-1M公开获取。

🔬 方法详解

问题定义：论文旨在解决多模态大型语言模型缺乏大规模高质量Agent Tuning数据集的问题。现有方法难以有效提升模型在复杂推理、动态工具调用和多模态信息融合方面的能力。缺乏高质量的数据集是制约多模态Agent发展的关键瓶颈。

核心思路：论文的核心思路是构建一个包含百万级别样本的多模态Agent Tuning数据集，该数据集不仅包含问答对，还包含详细的推理过程（CoT）、检索增强信息（RAG）以及反思过程，从而引导模型学习更有效的推理和工具使用策略。通过高质量的数据驱动，提升模型的多模态Agent能力。

技术框架：MMAT-1M的构建包含四个主要阶段： 1. 数据收集：从公开可用的多模态数据集中收集问答对。 2. 理由生成与工具集成：利用GPT-4o为每个问答对生成推理理由，并动态集成API调用和RAG信息，形成多轮对话。 3. 反思优化：通过反思机制，对生成的理由进行逻辑一致性和准确性检查，并进行优化，生成包含理由和反思（RR）的多轮对话。 4. 格式压缩（可选）：将多轮对话压缩为单轮理由和反思（ORR）格式，以提高训练效率。

关键创新：该论文的关键创新在于提出了一个四阶段的数据引擎，能够自动生成大规模、高质量的多模态Agent Tuning数据集。该数据引擎融合了CoT、RAG和反思机制，能够有效提升模型在复杂推理和工具使用方面的能力。与现有方法相比，MMAT-1M数据集规模更大，质量更高，更适合用于训练多模态Agent。

关键设计：在数据生成过程中，使用了GPT-4o作为理由生成器，并设计了多轮对话的生成范式，以模拟Agent的推理过程。在反思阶段，设计了特定的prompt，引导模型对生成的理由进行逻辑一致性和准确性检查。此外，还提供了将多轮对话压缩为单轮对话的选项，以提高训练效率。具体参数设置和损失函数细节在论文中未明确说明，可能使用了GPT-4o的默认设置和标准的语言模型训练方法。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在MMAT-1M数据集上微调的InternVL2.5-8B-RR模型在八个公共基准测试中平均提高了2.7%，在RAG基准测试Dyn-VQA上提高了8.8%。这些结果表明，MMAT-1M数据集能够有效提升多模态模型的推理和工具使用能力。

🎯 应用场景

该研究成果可广泛应用于智能问答、视觉导航、机器人控制等领域。通过在MMAT-1M数据集上训练多模态Agent，可以提升模型在复杂场景下的推理和决策能力，使其能够更好地理解和利用多模态信息，从而实现更智能的人机交互和自动化任务。

📄 摘要（原文）

Large Language Models (LLMs), enhanced through agent tuning, have demonstrated remarkable capabilities in Chain-of-Thought (CoT) and tool utilization, significantly surpassing the performance of standalone models. However, the multimodal domain still lacks a large-scale, high-quality agent tuning dataset to unlock the full potential of multimodal large language models. To bridge this gap, we introduce MMAT-1M, the first million-scale multimodal agent tuning dataset designed to support CoT, reflection, and dynamic tool usage. Our dataset is constructed through a novel four-stage data engine: 1) We first curate publicly available multimodal datasets containing question-answer pairs; 2) Then, leveraging GPT-4o, we generate rationales for the original question-answer pairs and dynamically integrate API calls and Retrieval Augmented Generation (RAG) information through a multi-turn paradigm; 3) Furthermore, we refine the rationales through reflection to ensure logical consistency and accuracy, creating a multi-turn dialogue dataset with both Rationale and Reflection (RR); 4) Finally, to enhance efficiency, we optionally compress multi-turn dialogues into a One-turn Rationale and Reflection (ORR) format. By fine-tuning open-source multimodal models on the MMAT-1M, we observe significant performance gains. For instance, the InternVL2.5-8B-RR model achieves an average improvement of 2.7% across eight public benchmarks and 8.8% on the RAG benchmark Dyn-VQA, demonstrating the dataset's effectiveness in enhancing multimodal reasoning and tool-based capabilities. The dataset is publicly available at https://github.com/VIS-MPU-Agent/MMAT-1M.

MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理