MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision

📄 arXiv: 2505.13427v2 📥 PDF

作者: Lingxiao Du, Fanqing Meng, Zongkai Liu, Zhixiang Zhou, Ping Luo, Qiaosheng Zhang, Wenqi Shao

分类: cs.AI, cs.CV

发布日期: 2025-05-19 (更新: 2025-06-05)

🔗 代码/项目: GITHUB


💡 一句话要点

提出MM-PRM,通过可扩展的步骤级监督增强多模态数学推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 数学推理 过程奖励模型 蒙特卡洛树搜索 步骤级监督

📋 核心要点

  1. 现有MLLM在复杂数学推理中表现不足,缺乏对中间步骤的有效监督,导致逻辑错误。
  2. 提出MM-PRM,利用自动化框架训练过程奖励模型,对推理步骤进行细粒度评估和指导。
  3. 实验表明,MM-PRM在多个数学推理基准测试中显著提升了性能,验证了过程监督的有效性。

📝 摘要(中文)

多模态大型语言模型(MLLM)在视觉-语言理解方面取得了显著进展,但仍难以应对复杂的多步骤推理,常常产生逻辑不一致或部分正确的解决方案。一个关键的限制是缺乏对中间推理步骤的细粒度监督。为了解决这个问题,我们提出了MM-PRM,一个在完全自动化、可扩展的框架内训练的过程奖励模型。我们首先构建MM-Policy,一个在多样化的数学推理数据上训练的强大的多模态模型。然后,我们构建MM-K12,一个包含10,000个具有可验证答案的多模态数学问题的精选数据集,作为种子数据。利用基于蒙特卡洛树搜索(MCTS)的流程,我们生成超过70万个步骤级注释,无需人工标注。由此产生的PRM用于在Best-of-N推理设置中对候选推理路径进行评分,并在领域内(MM-K12测试集)和领域外(OlympiadBench, MathVista等)基准测试中取得了显著的改进。进一步的分析证实了软标签、较小的学习率和路径多样性在优化PRM性能方面的有效性。MM-PRM表明,过程监督是增强多模态推理系统逻辑鲁棒性的强大工具。我们发布了所有的代码和数据。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型在复杂数学推理任务中,由于缺乏对中间推理步骤的细粒度监督而导致的逻辑错误和推理能力不足的问题。现有方法通常只关注最终答案的正确性,忽略了中间步骤的逻辑连贯性,导致模型难以进行多步推理。

核心思路:论文的核心思路是引入过程奖励模型(Process Reward Model, PRM),通过对推理过程中的每一步进行评估和奖励,引导模型学习更符合逻辑的推理路径。该方法利用自动化框架生成大量的步骤级标注数据,无需人工干预,从而实现可扩展的监督。

技术框架:整体框架包含以下几个主要模块:1) MM-Policy模型:一个在多样化的数学推理数据上训练的强大的多模态模型,作为生成推理路径的基础。2) MM-K12数据集:一个包含10,000个多模态数学问题的精选数据集,作为种子数据。3) 基于MCTS的标注流程:利用蒙特卡洛树搜索算法,自动生成大量的步骤级标注数据,用于训练PRM。4) MM-PRM模型:一个过程奖励模型,用于评估推理路径的质量,并指导模型的推理过程。5) Best-of-N推理:在推理阶段,生成多个候选推理路径,利用PRM进行评分,选择得分最高的路径作为最终结果。

关键创新:最重要的技术创新点在于提出了一个完全自动化的、可扩展的步骤级监督框架,通过过程奖励模型对多模态数学推理进行细粒度指导。与现有方法相比,该方法无需人工标注,可以生成大量的训练数据,从而有效地提升模型的推理能力和逻辑鲁棒性。

关键设计:关键设计包括:1) 使用软标签进行PRM训练,允许模型学习更细微的奖励信号。2) 使用较小的学习率,避免PRM过拟合。3) 鼓励路径多样性,生成更多不同的推理路径,从而提高PRM的泛化能力。4) 基于MCTS的标注流程,通过探索不同的推理路径,生成高质量的步骤级标注数据。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,MM-PRM在MM-K12测试集上取得了显著的性能提升,并在OlympiadBench和MathVista等领域外基准测试中也表现出优越的性能。通过对软标签、学习率和路径多样性的分析,验证了这些因素对PRM性能的积极影响。该研究表明,过程监督是增强多模态推理系统逻辑鲁棒性的有效方法。

🎯 应用场景

该研究成果可应用于教育领域,例如智能辅导系统,帮助学生理解数学题的解题步骤和逻辑推理过程。此外,还可以应用于需要复杂推理能力的智能助手、机器人等领域,提升其解决问题的能力和可靠性。未来,该方法有望扩展到其他需要多步骤推理的任务中,例如科学研究、金融分析等。

📄 摘要(原文)

While Multimodal Large Language Models (MLLMs) have achieved impressive progress in vision-language understanding, they still struggle with complex multi-step reasoning, often producing logically inconsistent or partially correct solutions. A key limitation lies in the lack of fine-grained supervision over intermediate reasoning steps. To address this, we propose MM-PRM, a process reward model trained within a fully automated, scalable framework. We first build MM-Policy, a strong multimodal model trained on diverse mathematical reasoning data. Then, we construct MM-K12, a curated dataset of 10,000 multimodal math problems with verifiable answers, which serves as seed data. Leveraging a Monte Carlo Tree Search (MCTS)-based pipeline, we generate over 700k step-level annotations without human labeling. The resulting PRM is used to score candidate reasoning paths in the Best-of-N inference setup and achieves significant improvements across both in-domain (MM-K12 test set) and out-of-domain (OlympiadBench, MathVista, etc.) benchmarks. Further analysis confirms the effectiveness of soft labels, smaller learning rates, and path diversity in optimizing PRM performance. MM-PRM demonstrates that process supervision is a powerful tool for enhancing the logical robustness of multimodal reasoning systems. We release all our codes and data at https://github.com/ModalMinds/MM-PRM.