VisualPRM: An Effective Process Reward Model for Multimodal Reasoning
作者: Weiyun Wang, Zhangwei Gao, Lianjie Chen, Zhe Chen, Jinguo Zhu, Xiangyu Zhao, Yangzhou Liu, Yue Cao, Shenglong Ye, Xizhou Zhu, Lewei Lu, Haodong Duan, Yu Qiao, Jifeng Dai, Wenhai Wang
分类: cs.CV, cs.CL
发布日期: 2025-03-13
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出VisualPRM,一种有效的多模态过程奖励模型,提升MLLM的推理能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 过程奖励模型 大语言模型 视觉推理 过程监督 Best-of-N 多模态数据集
📋 核心要点
- 现有多模态大语言模型(MLLM)在复杂推理任务中表现不足,缺乏对中间推理步骤的有效监督。
- VisualPRM通过学习奖励正确的推理过程,而非仅关注最终结果,从而提升MLLM的推理能力。
- 实验表明,VisualPRM在多种MLLM和基准测试中均取得了显著提升,尤其是在InternVL2.5-78B上提升了5.9个百分点。
📝 摘要(中文)
本文介绍VisualPRM,一个拥有80亿参数的先进多模态过程奖励模型(PRM),它通过Best-of-N (BoN)评估策略,提升了现有不同模型规模和系列的Multimodal Large Language Models (MLLM)的推理能力。具体来说,我们的模型改进了三种类型的MLLM和四种不同模型规模的推理性能。即使应用于高性能的InternVL2.5-78B,它在七个多模态推理基准测试中也实现了5.9个百分点的提升。实验结果表明,在BoN评估期间,我们的模型表现出优于结果奖励模型和自我一致性的性能。为了促进多模态PRM的训练,我们使用自动数据管道构建了一个多模态过程监督数据集VisualPRM400K。对于多模态PRM的评估,我们提出了VisualProcessBench,一个具有人工标注的逐步正确性标签的基准,用于衡量PRM检测多模态推理任务中错误步骤的能力。我们希望我们的工作能够激发更多未来的研究,并为MLLM的发展做出贡献。我们的模型、数据和基准已在https://internvl.github.io/blog/2025-03-13-VisualPRM/发布。
🔬 方法详解
问题定义:现有MLLM在多模态推理任务中,通常只关注最终结果的正确性,而忽略了中间推理步骤的合理性。这种端到端的训练方式难以有效监督模型的推理过程,导致模型容易产生错误的推理路径,最终影响结果的准确性。此外,缺乏高质量的过程监督数据也是一个挑战。
核心思路:VisualPRM的核心思路是学习一个过程奖励模型,该模型能够评估MLLM在推理过程中的每一步是否合理。通过奖励正确的推理步骤,惩罚错误的推理步骤,VisualPRM可以引导MLLM学习更可靠的推理路径,从而提高最终结果的准确性。这种方法类似于人类解决问题时的逐步验证过程。
技术框架:VisualPRM的整体框架包括三个主要部分:1) 多模态过程监督数据集VisualPRM400K的构建,该数据集包含大量的多模态推理任务及其对应的逐步推理过程和正确性标签;2) 过程奖励模型VisualPRM的训练,该模型基于Transformer架构,输入为多模态上下文和推理步骤,输出为该步骤的奖励值;3) 基于Best-of-N (BoN)的推理策略,即生成多个推理路径,并使用VisualPRM对每个路径进行评估,选择奖励最高的路径作为最终结果。
关键创新:VisualPRM的关键创新在于引入了过程奖励的概念,将对最终结果的监督扩展到对中间推理步骤的监督。这使得模型能够学习到更细粒度的推理知识,从而提高推理的可靠性。此外,VisualProcessBench基准的提出,为多模态过程奖励模型的评估提供了标准化的平台。
关键设计:VisualPRM400K数据集的构建采用了自动数据管道,以提高数据收集的效率和规模。VisualPRM模型采用了Transformer架构,并针对多模态数据的特点进行了优化。在训练过程中,使用了对比学习损失函数,以区分正确和错误的推理步骤。BoN推理策略中的N值是一个重要的参数,需要根据具体的任务和模型进行调整。
🖼️ 关键图片
📊 实验亮点
VisualPRM在七个多模态推理基准测试中取得了显著的性能提升,尤其是在InternVL2.5-78B模型上提升了5.9个百分点。实验结果表明,VisualPRM优于传统的Outcome Reward Models和Self-Consistency方法。VisualProcessBench基准的发布为多模态过程奖励模型的评估提供了标准化的平台。
🎯 应用场景
VisualPRM具有广泛的应用前景,可用于提升各种多模态大语言模型在视觉问答、图像描述、视觉推理等任务中的性能。该研究成果有助于开发更智能、更可靠的AI系统,例如智能客服、自动驾驶、医疗诊断等。
📄 摘要(原文)
We introduce VisualPRM, an advanced multimodal Process Reward Model (PRM) with 8B parameters, which improves the reasoning abilities of existing Multimodal Large Language Models (MLLMs) across different model scales and families with Best-of-N (BoN) evaluation strategies. Specifically, our model improves the reasoning performance of three types of MLLMs and four different model scales. Even when applied to the highly capable InternVL2.5-78B, it achieves a 5.9-point improvement across seven multimodal reasoning benchmarks. Experimental results show that our model exhibits superior performance compared to Outcome Reward Models and Self-Consistency during BoN evaluation. To facilitate the training of multimodal PRMs, we construct a multimodal process supervision dataset VisualPRM400K using an automated data pipeline. For the evaluation of multimodal PRMs, we propose VisualProcessBench, a benchmark with human-annotated step-wise correctness labels, to measure the abilities of PRMs to detect erroneous steps in multimodal reasoning tasks. We hope that our work can inspire more future research and contribute to the development of MLLMs. Our model, data, and benchmark are released in https://internvl.github.io/blog/2025-03-13-VisualPRM/.