Multimodal Mathematical Reasoning with Diverse Solving Perspective
作者: Wenhao Shi, Zhiqiang Hu, Yi Bin, Yang Yang, See-Kiong Ng, Heng Tao Shen
分类: cs.CL
发布日期: 2025-07-03
备注: 8 pages
💡 一句话要点
提出MathV-DP数据集与Qwen-VL-DP模型,提升多模态数学推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 数学推理 强化学习 数据集构建 多样性学习
📋 核心要点
- 现有MLLM在数学推理中依赖单一图像-文本对和单解监督,忽略了推理视角的多样性。
- 提出MathV-DP数据集,包含每个问题多个解题轨迹,并设计Qwen-VL-DP模型学习多样化推理。
- 实验表明,Qwen-VL-DP在准确性和生成多样性上显著优于现有模型,验证了方法有效性。
📝 摘要(中文)
大规模强化学习的最新进展显著增强了大型语言模型(LLMs)的推理能力,尤其是在数学领域。然而,目前用于数学推理的多模态LLMs(MLLMs)通常依赖于一对一的图像-文本对和单解监督,忽略了有效推理视角和内部反思的多样性。本文提出了MathV-DP,一个新的数据集,它为每个图像-问题对捕获多个不同的解题轨迹,从而促进更丰富的推理监督。此外,我们提出了Qwen-VL-DP,一个基于Qwen-VL的模型,通过监督学习进行微调,并通过组相对策略优化(GRPO)进行增强,GRPO是一种基于规则的强化学习方法,它集成了正确性判别和多样性感知奖励函数。我们的方法强调从不同的推理视角学习,并区分正确但不同的解决方案。在MathVista的minitest和Math-V基准上的大量实验表明,Qwen-VL-DP在准确性和生成多样性方面都显著优于先前的基础MLLMs,突出了在多模态数学推理中结合不同视角和反思性推理的重要性。
🔬 方法详解
问题定义:现有用于多模态数学推理的MLLM模型,主要依赖于一对一的图像-文本对进行训练,并且通常只使用单一的正确答案进行监督。这种方式忽略了数学问题求解过程中可能存在的多种有效解题思路和推理路径,限制了模型学习到更全面和灵活的推理能力。模型的泛化能力和对于复杂问题的解决能力受到限制。
核心思路:论文的核心思路是通过引入包含多样化解题轨迹的数据集,并设计相应的模型训练方法,使模型能够学习到不同的推理视角和解题策略。通过鼓励模型探索和学习不同的正确解法,提高其在面对新的或复杂问题时的适应性和创造性。
技术框架:整体框架包含两个主要部分:MathV-DP数据集的构建和Qwen-VL-DP模型的训练。MathV-DP数据集为每个图像-问题对提供多个不同的解题轨迹。Qwen-VL-DP模型基于Qwen-VL,首先通过监督学习在MathV-DP上进行微调,然后使用组相对策略优化(GRPO)进行强化学习,以进一步提升模型的推理能力和多样性。GRPO包含正确性判别和多样性感知奖励函数。
关键创新:论文的关键创新在于:1) 提出了MathV-DP数据集,该数据集包含每个图像-问题对的多个不同的解题轨迹,为多模态数学推理提供了更丰富的监督信息。2) 提出了基于规则的强化学习方法GRPO,该方法通过结合正确性判别和多样性感知奖励函数,有效地引导模型学习不同的推理视角和解题策略。
关键设计:在GRPO中,正确性判别通过比较模型生成的解题轨迹与数据集中的正确解题轨迹来判断其正确性。多样性感知奖励函数旨在鼓励模型生成与已有解题轨迹不同的解法,从而提高解题的多样性。具体实现细节(如奖励函数的具体形式、强化学习的参数设置等)在论文中有更详细的描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Qwen-VL-DP在MathVista的minitest和Math-V基准测试中,在准确性和生成多样性方面均显著优于先前的基线模型。具体而言,Qwen-VL-DP在准确率方面取得了显著提升,并且能够生成更多样化的正确解题思路,验证了引入多样化解题轨迹和GRPO方法的有效性。
🎯 应用场景
该研究成果可应用于智能教育、数学辅助工具、以及需要复杂推理能力的AI系统中。例如,可以开发更智能的数学辅导系统,能够根据学生的解题思路提供个性化的指导和反馈,或者应用于机器人领域,使机器人能够理解和解决复杂的数学问题,从而更好地完成各种任务。未来,该技术有望扩展到其他需要多角度思考和问题解决的领域。
📄 摘要(原文)
Recent progress in large-scale reinforcement learning (RL) has notably enhanced the reasoning capabilities of large language models (LLMs), especially in mathematical domains. However, current multimodal LLMs (MLLMs) for mathematical reasoning often rely on one-to-one image-text pairs and single-solution supervision, overlooking the diversity of valid reasoning perspectives and internal reflections. In this work, we introduce MathV-DP, a novel dataset that captures multiple diverse solution trajectories for each image-question pair, fostering richer reasoning supervision. We further propose Qwen-VL-DP, a model built upon Qwen-VL, fine-tuned with supervised learning and enhanced via group relative policy optimization (GRPO), a rule-based RL approach that integrates correctness discrimination and diversity-aware reward functions. Our method emphasizes learning from varied reasoning perspectives and distinguishing between correct yet distinct solutions. Extensive experiments on the MathVista's minitest and Math-V benchmarks demonstrate that Qwen-VL-DP significantly outperforms prior base MLLMs in both accuracy and generative diversity, highlighting the importance of incorporating diverse perspectives and reflective reasoning in multimodal mathematical reasoning.