Training Data Efficiency in Multimodal Process Reward Models

作者: Jinyuan Li, Chengsong Huang, Langlin Huang, Shaoyang Xu, Haolin Liu, Wenxuan Zhang, Jiaxin Huang

分类: cs.LG, cs.CL, cs.MM

发布日期: 2026-02-04

💡 一句话要点

提出平衡信息评分(BIS)方法，提升多模态过程奖励模型训练的数据效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 过程奖励模型 数据效率 视觉推理 主动学习

📋 核心要点

现有的多模态过程奖励模型(MPRM)训练依赖大规模蒙特卡洛标注数据，成本高昂，且数据存在冗余。
论文提出平衡信息评分(BIS)方法，通过评估标签混合和可靠性，选择信息量大的数据子集进行训练。
实验表明，使用BIS选择的10%数据子集，MPRM性能即可达到甚至超过全量数据训练的效果，显著提升数据效率。

📝 摘要（中文）

多模态过程奖励模型(MPRMs)是多模态大型语言模型中视觉推理步级监督的关键。MPRM的训练通常需要大规模的蒙特卡洛(MC)标注语料库，导致巨大的训练成本。本文研究了MPRM训练的数据效率。初步实验表明，MPRM训练在训练数据的随机子抽样下迅速饱和，表明现有MC标注语料库中存在大量冗余。为了解释这一点，我们形式化了一个理论框架，并揭示了信息梯度更新取决于两个因素：正/负步骤的标签混合和标签可靠性(正步骤的平均MC分数)。在这些见解的指导下，我们提出了平衡信息评分(BIS)，它在rollout级别上优先考虑混合和可靠性，而无需产生任何额外成本。在VisualProcessBench上的两个backbone(InternVL2.5-8B和Qwen2.5-VL-7B)上，BIS选择的子集始终匹配甚至超过小部分数据的全数据性能。值得注意的是，BIS子集仅使用10%的训练数据即可达到全数据性能，比随机子抽样提高了4.1%。

🔬 方法详解

问题定义：多模态过程奖励模型(MPRM)的训练需要大量的蒙特卡洛(MC)标注数据，这导致了高昂的训练成本。现有的训练方法没有充分考虑数据的质量和信息量，导致训练数据存在冗余，随机抽样训练容易饱和。因此，如何提高MPRM训练的数据效率是一个关键问题。

核心思路：论文的核心思路是，并非所有训练数据都对MPRM的训练有同等价值。信息量大的数据，即那些能够提供更有效梯度更新的数据，应该被优先选择。论文认为，有效的梯度更新取决于两个因素：正负样本的标签混合程度，以及正样本标签的可靠性。基于此，论文提出了平衡信息评分(BIS)，用于评估每个rollout的信息量。

技术框架：论文提出的方法主要包含以下几个步骤：1) 使用现有的MC标注数据；2) 对每个rollout计算BIS评分，BIS评分综合考虑了标签混合程度和标签可靠性；3) 根据BIS评分对rollout进行排序，选择评分最高的子集用于训练MPRM。整个过程无需额外的标注成本。

关键创新：论文的关键创新在于提出了平衡信息评分(BIS)，它是一种简单而有效的度量标准，用于评估训练数据的信息量。BIS综合考虑了标签混合程度和标签可靠性，这与以往只关注数据规模的方法不同。BIS可以在不增加额外标注成本的情况下，显著提高MPRM训练的数据效率。

关键设计：BIS的计算公式是关键。具体来说，标签混合程度通过正负样本比例来衡量，标签可靠性通过正样本的平均MC分数来衡量。BIS将这两个因素结合起来，形成一个综合评分。论文中没有涉及特定的网络结构或损失函数，而是将BIS作为一个数据选择策略，可以应用于不同的MPRM架构。

📊 实验亮点

实验结果表明，在VisualProcessBench数据集上，使用BIS选择的10%训练数据，MPRM的性能即可达到甚至超过使用全部数据训练的效果。相比于随机子抽样，BIS方法在数据效率上提升了4.1%。该结果在InternVL2.5-8B和Qwen2.5-VL-7B两个backbone上均得到验证，表明BIS方法的有效性和泛化能力。

🎯 应用场景

该研究成果可广泛应用于需要步级监督的视觉推理任务中，例如机器人导航、视觉问答、图像编辑等。通过减少训练数据量，可以降低模型训练成本，加速模型开发周期，并有可能在资源受限的环境中部署更强大的多模态模型。未来，该方法可以进一步扩展到其他类型的数据集和模型架构。

📄 摘要（原文）

Multimodal Process Reward Models (MPRMs) are central to step-level supervision for visual reasoning in MLLMs. Training MPRMs typically requires large-scale Monte Carlo (MC)-annotated corpora, incurring substantial training cost. This paper studies the data efficiency for MPRM training.Our preliminary experiments reveal that MPRM training quickly saturates under random subsampling of the training data, indicating substantial redundancy within existing MC-annotated corpora.To explain this, we formalize a theoretical framework and reveal that informative gradient updates depend on two factors: label mixtures of positive/negative steps and label reliability (average MC scores of positive steps). Guided by these insights, we propose the Balanced-Information Score (BIS), which prioritizes both mixture and reliability based on existing MC signals at the rollout level, without incurring any additional cost. Across two backbones (InternVL2.5-8B and Qwen2.5-VL-7B) on VisualProcessBench, BIS-selected subsets consistently match and even surpass the full-data performance at small fractions. Notably, the BIS subset reaches full-data performance using only 10% of the training data, improving over random subsampling by a relative 4.1%.

Training Data Efficiency in Multimodal Process Reward Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理