MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning
作者: Tianhong Gao, Yannian Fu, Weiqun Wu, Haixiao Yue, Shanshan Liu, Gang Zhang
分类: cs.CV
发布日期: 2025-07-29
🔗 代码/项目: GITHUB
💡 一句话要点
提出MMAT-1M:一个大规模多模态Agent Tuning推理数据集,用于提升多模态大模型的推理和工具使用能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 Agent Tuning 大型语言模型 数据集 推理 工具使用 检索增强生成 思维链
📋 核心要点
- 多模态大模型缺乏大规模高质量的Agent Tuning数据集,限制了其在复杂推理和工具使用方面的潜力。
- 论文提出MMAT-1M数据集,通过四阶段数据引擎,融合CoT、RAG和反思机制,生成高质量的多模态Agent Tuning数据。
- 实验表明,在MMAT-1M上微调的模型在多个基准测试中取得显著性能提升,验证了数据集的有效性。
📝 摘要(中文)
大型语言模型(LLMs)通过Agent Tuning得到增强,在思维链(CoT)和工具利用方面表现出卓越的能力,显著超越了独立模型。然而,多模态领域仍然缺乏大规模、高质量的Agent Tuning数据集,以充分释放多模态大型语言模型的潜力。为了弥补这一差距,我们推出了MMAT-1M,这是首个百万级多模态Agent Tuning数据集,旨在支持CoT、反思和动态工具使用。我们的数据集通过一种新颖的四阶段数据引擎构建:1)我们首先整理包含问答对的公开多模态数据集;2)然后,利用GPT-4o,我们为原始问答对生成理由,并通过多轮范式动态集成API调用和检索增强生成(RAG)信息;3)此外,我们通过反思来完善理由,以确保逻辑一致性和准确性,从而创建一个具有理由和反思(RR)的多轮对话数据集;4)最后,为了提高效率,我们可选择将多轮对话压缩为单轮理由和反思(ORR)格式。通过在MMAT-1M上微调开源多模态模型,我们观察到显著的性能提升。例如,InternVL2.5-8B-RR模型在八个公共基准测试中平均提高了2.7%,在RAG基准测试Dyn-VQA上提高了8.8%,证明了该数据集在增强多模态推理和基于工具的能力方面的有效性。该数据集可在https://github.com/VIS-MPU-Agent/MMAT-1M公开获取。
🔬 方法详解
问题定义:论文旨在解决多模态大型语言模型缺乏大规模高质量Agent Tuning数据集的问题。现有方法难以有效提升模型在复杂推理、动态工具调用和多模态信息融合方面的能力。缺乏高质量的数据集是制约多模态Agent发展的关键瓶颈。
核心思路:论文的核心思路是构建一个包含百万级别样本的多模态Agent Tuning数据集,该数据集不仅包含问答对,还包含详细的推理过程(CoT)、检索增强信息(RAG)以及反思过程,从而引导模型学习更有效的推理和工具使用策略。通过高质量的数据驱动,提升模型的多模态Agent能力。
技术框架:MMAT-1M的构建包含四个主要阶段: 1. 数据收集:从公开可用的多模态数据集中收集问答对。 2. 理由生成与工具集成:利用GPT-4o为每个问答对生成推理理由,并动态集成API调用和RAG信息,形成多轮对话。 3. 反思优化:通过反思机制,对生成的理由进行逻辑一致性和准确性检查,并进行优化,生成包含理由和反思(RR)的多轮对话。 4. 格式压缩(可选):将多轮对话压缩为单轮理由和反思(ORR)格式,以提高训练效率。
关键创新:该论文的关键创新在于提出了一个四阶段的数据引擎,能够自动生成大规模、高质量的多模态Agent Tuning数据集。该数据引擎融合了CoT、RAG和反思机制,能够有效提升模型在复杂推理和工具使用方面的能力。与现有方法相比,MMAT-1M数据集规模更大,质量更高,更适合用于训练多模态Agent。
关键设计:在数据生成过程中,使用了GPT-4o作为理由生成器,并设计了多轮对话的生成范式,以模拟Agent的推理过程。在反思阶段,设计了特定的prompt,引导模型对生成的理由进行逻辑一致性和准确性检查。此外,还提供了将多轮对话压缩为单轮对话的选项,以提高训练效率。具体参数设置和损失函数细节在论文中未明确说明,可能使用了GPT-4o的默认设置和标准的语言模型训练方法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在MMAT-1M数据集上微调的InternVL2.5-8B-RR模型在八个公共基准测试中平均提高了2.7%,在RAG基准测试Dyn-VQA上提高了8.8%。这些结果表明,MMAT-1M数据集能够有效提升多模态模型的推理和工具使用能力。
🎯 应用场景
该研究成果可广泛应用于智能问答、视觉导航、机器人控制等领域。通过在MMAT-1M数据集上训练多模态Agent,可以提升模型在复杂场景下的推理和决策能力,使其能够更好地理解和利用多模态信息,从而实现更智能的人机交互和自动化任务。
📄 摘要(原文)
Large Language Models (LLMs), enhanced through agent tuning, have demonstrated remarkable capabilities in Chain-of-Thought (CoT) and tool utilization, significantly surpassing the performance of standalone models. However, the multimodal domain still lacks a large-scale, high-quality agent tuning dataset to unlock the full potential of multimodal large language models. To bridge this gap, we introduce MMAT-1M, the first million-scale multimodal agent tuning dataset designed to support CoT, reflection, and dynamic tool usage. Our dataset is constructed through a novel four-stage data engine: 1) We first curate publicly available multimodal datasets containing question-answer pairs; 2) Then, leveraging GPT-4o, we generate rationales for the original question-answer pairs and dynamically integrate API calls and Retrieval Augmented Generation (RAG) information through a multi-turn paradigm; 3) Furthermore, we refine the rationales through reflection to ensure logical consistency and accuracy, creating a multi-turn dialogue dataset with both Rationale and Reflection (RR); 4) Finally, to enhance efficiency, we optionally compress multi-turn dialogues into a One-turn Rationale and Reflection (ORR) format. By fine-tuning open-source multimodal models on the MMAT-1M, we observe significant performance gains. For instance, the InternVL2.5-8B-RR model achieves an average improvement of 2.7% across eight public benchmarks and 8.8% on the RAG benchmark Dyn-VQA, demonstrating the dataset's effectiveness in enhancing multimodal reasoning and tool-based capabilities. The dataset is publicly available at https://github.com/VIS-MPU-Agent/MMAT-1M.