M2-Reasoning: Empowering MLLMs with Unified General and Spatial Reasoning

📄 arXiv: 2507.08306v1 📥 PDF

作者: Inclusion AI, :, Fudong Wang, Jiajia Liu, Jingdong Chen, Jun Zhou, Kaixiang Ji, Lixiang Ru, Qingpei Guo, Ruobing Zheng, Tianqi Li, Yi Yuan, Yifan Mao, Yuting Xiao, Ziping Ma

分类: cs.AI, cs.CL, cs.CV, cs.LG

发布日期: 2025-07-11

备注: 31pages, 14 figures


💡 一句话要点

M2-Reasoning:通过统一的通用和空间推理增强多模态大语言模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 空间推理 通用推理 强化学习 数据流水线 多任务学习 动态训练 可验证奖励

📋 核心要点

  1. 现有多模态大语言模型在动态空间交互方面存在不足,限制了其在现实世界应用中的能力。
  2. M2-Reasoning通过高质量数据流水线和动态多任务训练策略,提升模型在通用和空间推理方面的能力。
  3. 实验结果表明,M2-Reasoning在8个基准测试中取得了SOTA,显著提升了通用和空间推理性能。

📝 摘要(中文)

本文提出M2-Reasoning-7B,旨在提升多模态大语言模型(MLLMs)在通用和空间推理方面的能力,尤其针对现有模型在动态空间交互方面的不足。该模型基于两个关键创新:一是构建了一个高质量的数据流水线,生成了294.2K的数据样本(168K用于冷启动微调,126.2K用于基于可验证奖励的强化学习RLVR),这些数据具有逻辑一致的推理轨迹并经过全面评估;二是采用动态多任务训练策略,通过逐步优化来缓解数据之间的冲突,并使用任务特定的奖励来提供定制化的激励信号。实验结果表明,M2-Reasoning-7B在8个基准测试中取得了新的SOTA,展示了其在通用和空间推理领域中的卓越性能。

🔬 方法详解

问题定义:现有的多模态大语言模型(MLLMs)在通用推理方面取得了一定的进展,但对于需要理解和推理动态空间交互的场景仍然存在困难。这些模型难以处理涉及物体运动、相对位置变化等复杂空间关系的推理任务,限制了它们在机器人、自动驾驶等领域的应用。现有方法缺乏高质量的训练数据,并且难以有效地平衡不同任务之间的学习。

核心思路:M2-Reasoning的核心思路是通过构建高质量的训练数据和设计有效的训练策略,来提升模型在通用和空间推理方面的能力。具体来说,论文通过数据流水线生成具有逻辑一致推理轨迹的数据,并采用动态多任务训练策略来缓解数据之间的冲突,同时使用任务特定的奖励来提供定制化的激励信号。这种方法旨在使模型能够更好地理解和推理复杂的空间关系。

技术框架:M2-Reasoning的整体框架包括数据生成流水线和动态多任务训练策略两个主要部分。数据生成流水线负责生成高质量的训练数据,包括冷启动微调数据和RLVR数据。动态多任务训练策略则负责利用这些数据来训练模型,通过逐步优化来缓解数据之间的冲突,并使用任务特定的奖励来提供定制化的激励信号。整个框架旨在使模型能够更好地理解和推理复杂的空间关系。

关键创新:M2-Reasoning的关键创新在于其数据生成流水线和动态多任务训练策略。数据生成流水线能够生成高质量的、具有逻辑一致推理轨迹的数据,这为模型的训练提供了可靠的基础。动态多任务训练策略能够有效地平衡不同任务之间的学习,并使用任务特定的奖励来提供定制化的激励信号,从而提升模型的性能。与现有方法相比,M2-Reasoning能够更好地处理涉及物体运动、相对位置变化等复杂空间关系的推理任务。

关键设计:在数据生成方面,论文设计了专门的规则和流程来保证数据的逻辑一致性和质量。在动态多任务训练方面,论文采用了逐步优化的策略,并设计了任务特定的奖励函数,以提供定制化的激励信号。具体的网络结构和参数设置未知,但强调了数据和训练策略的重要性。

🖼️ 关键图片

img_0

📊 实验亮点

M2-Reasoning在8个基准测试中取得了新的SOTA,证明了其在通用和空间推理方面的卓越性能。具体性能数据未知,但论文强调了其在通用和空间推理领域均优于现有模型。通过高质量数据和动态训练策略,M2-Reasoning显著提升了模型在复杂空间交互场景下的推理能力。

🎯 应用场景

M2-Reasoning具有广泛的应用前景,例如机器人导航、自动驾驶、智能家居、游戏AI等领域。它可以帮助机器人更好地理解周围环境,进行更智能的决策和行动。在自动驾驶领域,它可以提升车辆对复杂交通场景的理解和应对能力。在智能家居领域,它可以实现更自然的人机交互。在游戏AI领域,它可以创造更智能、更具挑战性的游戏角色。

📄 摘要(原文)

Recent advancements in Multimodal Large Language Models (MLLMs), particularly through Reinforcement Learning with Verifiable Rewards (RLVR), have significantly enhanced their reasoning abilities. However, a critical gap persists: these models struggle with dynamic spatial interactions, a capability essential for real-world applications. To bridge this gap, we introduce M2-Reasoning-7B, a model designed to excel in both general and spatial reasoning. Our approach integrates two key innovations: (1) a novel data pipeline that generates 294.2K high-quality data samples (168K for cold-start fine-tuning and 126.2K for RLVR), which feature logically coherent reasoning trajectories and have undergone comprehensive assessment; and (2) a dynamic multi-task training strategy with step-wise optimization to mitigate conflicts between data, and task-specific rewards for delivering tailored incentive signals. This combination of curated data and advanced training allows M2-Reasoning-7B to set a new state-of-the-art (SOTA) across 8 benchmarks, showcasing superior performance in both general and spatial reasoning domains.