DreamPRM-1.5: Unlocking the Potential of Each Instance for Multimodal Process Reward Model Training

作者: Qi Cao, Pengtao Xie

分类: cs.LG

发布日期: 2025-09-05 (更新: 2025-10-21)

💡 一句话要点

DreamPRM-1.5：通过实例重加权提升多模态过程奖励模型的训练效果

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 过程奖励模型 实例重加权 双层优化 分布偏移 模型训练 自适应权重

📋 核心要点

多模态过程奖励模型训练面临分布偏移和数据质量不平衡问题，现有领域级重加权方法存在性能瓶颈。
DreamPRM-1.5提出实例级重加权框架，通过双层优化为每个样本分配自适应权重，提升模型训练效果。
实验表明，DreamPRM-1.5在多个数据集上取得了领先的性能，并缩小了与oracle上限的差距，训练过程稳定。

📝 摘要（中文）

多模态过程奖励模型(PRM)的训练面临训练集与测试集之间的分布偏移以及训练数据样本质量不平衡的挑战。领域级重加权(如DreamPRM)虽然能使训练与测试目标对齐，但与oracle上限(pass@N)仍存在差距，表明存在元级别欠参数化问题。本文提出DreamPRM-1.5，一种实例级重加权框架，通过双层优化为每个训练样本分配自适应权重。为了实现跨尺度的实例重加权，开发了两种互补机制：Instance Table，学习显式的样本权重，擅长处理中小规模数据；Instance Net，一个轻量级神经网络，泛化能力更强，可扩展到大型语料库。通过时间尺度匹配、冷启动初始化和有界范围权重等稳定训练方法，防止发散。结合测试时缩放，DreamPRM-1.5在MMMU验证集上达到84.6的准确率，在R-Bench-V上达到31.3的准确率，并与GPT-5-mini等领先骨干网络结合，在公开多模态推理排行榜上取得领先地位。实验结果表明，DreamPRM-1.5缩小了与oracle的差距，实现了领先的性能，并能稳定训练。

🔬 方法详解

问题定义：现有的多模态过程奖励模型(PRM)训练方法，例如DreamPRM，主要关注领域级别的重加权，忽略了单个训练样本之间的质量差异。这导致模型在测试集上的表现与理论上限（oracle）之间存在差距，表明模型可能存在欠参数化问题，无法充分利用每个实例的信息。

核心思路：DreamPRM-1.5的核心思路是进行实例级别的重加权，即为每个训练样本分配一个自适应的权重，从而更加精细地控制每个样本对模型训练的影响。通过这种方式，可以提高高质量样本的权重，降低低质量样本的权重，从而优化模型的训练过程，使其更接近oracle上限。

技术框架：DreamPRM-1.5采用双层优化框架。外层优化目标是提升模型在验证集上的性能，内层优化目标是学习每个训练样本的权重。为了实现实例级别的重加权，论文提出了两种互补的机制：Instance Table和Instance Net。Instance Table适用于中小规模数据，通过显式地学习每个样本的权重来实现重加权。Instance Net则是一个轻量级的神经网络，可以更好地泛化到大型语料库。在测试阶段，结合测试时缩放进一步提升性能。

关键创新：DreamPRM-1.5的关键创新在于提出了实例级别的重加权方法，并设计了两种不同的实例权重学习机制（Instance Table和Instance Net），以适应不同规模的数据集。与传统的领域级别重加权方法相比，实例级别重加权能够更精细地控制每个样本对模型训练的影响，从而提高模型的性能。

关键设计：为了保证训练的稳定性，论文提出了一系列关键的设计，包括：时间尺度匹配（在上下层优化之间进行平衡）、冷启动初始化（避免训练初期出现梯度爆炸）和有界范围权重（限制权重的取值范围，防止发散）。此外，损失函数的设计也至关重要，需要能够有效地反映样本的质量，并指导权重的学习。

🖼️ 关键图片

📊 实验亮点

DreamPRM-1.5在MMMU验证集上取得了84.6%的准确率，在R-Bench-V上取得了31.3%的准确率。与GPT-5-mini等领先的骨干网络结合后，在公开多模态推理排行榜上取得了第一名的成绩。实验结果表明，DreamPRM-1.5能够有效地缩小与oracle上限的差距，并显著提升多模态过程奖励模型的性能。

🎯 应用场景

DreamPRM-1.5可应用于各种需要多模态推理和过程理解的场景，例如智能助手、机器人导航、教育辅导等。通过提升多模态过程奖励模型的性能，可以使这些应用更加智能和可靠，从而提高用户体验和工作效率。该研究对提升多模态学习和推理能力具有重要意义。

📄 摘要（原文）

Training multimodal process reward models (PRMs) is hard due to (i) distribution shift between training set and test set and (ii) quality imbalance across training data samples. While domain-level reweighting (e.g., DreamPRM) aligns training with test-time objectives, it leaves a clear gap to an oracle upper bound (pass@N), even under a "sanity check" that uses test set data to probe headroom -- pointing to meta-level under-parameterization. We introduce DreamPRM-1.5, an instance-level reweighting framework that assigns an adaptive weight to every training example via bi-level optimization. To realize instance reweighting across scales, we develop two complementary regimes: Instance Table, which learns explicit per-sample weights and excels on small/medium data, and Instance Net, a lightweight neural network that generalizes better and scales to large corpora. A practical, stable training recipe -- time-scale matching between upper/lower updates, cold-start initialization, and bounded-range weights -- prevents divergence. Integrated with test-time scaling, DreamPRM-1.5 attains 84.6 accuracy on the MMMU validation set, 31.3 accuracy on R-Bench-V and, when paired with a leading backbone (e.g., GPT-5-mini), achieves first-place results on public multimodal reasoning leaderboards. Moreover, extensive experiments, including benchmark evaluations, baseline comparisons, and a sanity check, demonstrate that DreamPRM-1.5 closes the gap toward the oracle, achieves leading performance, and trains stably.

DreamPRM-1.5: Unlocking the Potential of Each Instance for Multimodal Process Reward Model Training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理