Grounding the Score: Explicit Visual Premise Verification for Reliable Vision-Language Process Reward Models
作者: Junxin Wang, Dai Guan, Weijie Qiu, Zhihang Li, Yongbo Gai, Zhengyi Yang, Mengyu Zhou, Erchao Zhao, Xiaoxi Jiang, Guanjun Jiang
分类: cs.CV, cs.AI
发布日期: 2026-03-17
备注: 27 pages, 4 figures, 10 tables. Evaluated on VisualProcessBench and six multimodal reasoning benchmarks (LogicVista, MMMU, MathVerse-VO, MathVision, MathVista, WeMath). Includes ablations and causal analysis via controlled constraint corruption. Code: https://github.com/Qwen-Applications/EVPV-PRM
🔗 代码/项目: GITHUB
💡 一句话要点
提出EVPV,通过显式视觉前提验证提升视觉-语言过程奖励模型的可靠性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言推理 奖励模型 显式验证 视觉前提 多模态学习
📋 核心要点
- 现有视觉-语言过程奖励模型在推理过程中易受视觉感知偏差影响,导致奖励信号不准确,影响模型性能。
- EVPV通过生成视觉检查表并提取图像约束,显式验证视觉前提的可靠性,从而解耦感知不确定性与逻辑评估。
- 实验表明,EVPV能有效提升步骤级验证的准确性,并在多个多模态推理基准上显著提高Best-of-N重新排序的性能。
📝 摘要(中文)
视觉-语言过程奖励模型(VL-PRMs)越来越多地用于对中间推理步骤进行评分,并在测试时缩放下对候选对象进行重新排序。然而,它们通常作为黑盒判决器:较低的步骤分数可能反映了真正的推理错误,或者仅仅是验证器对图像的错误感知。这种感知和推理之间的纠缠导致了系统的假阳性(奖励幻觉视觉前提)和假阴性(惩罚正确的基于视觉的陈述),从而破坏了重新排序和错误定位。我们引入了显式视觉前提验证(EVPV),这是一个轻量级的验证接口,它根据步骤所依赖的视觉前提的可靠性来调节步骤评分。该策略被提示生成一个逐步的视觉检查表,明确所需的视觉事实,而约束提取器独立地从输入图像中导出结构化的视觉约束。EVPV将检查表声明与这些约束进行匹配,以计算标量视觉可靠性信号,并通过可靠性门控校准PRM步骤奖励:当可靠性较低时,视觉依赖步骤的奖励会衰减,而当可靠性较高时,奖励会保留。这在没有每步工具调用的情况下将感知不确定性与逻辑评估分离。在VisualProcessBench和六个多模态推理基准上的实验表明,EVPV改进了步骤级别的验证,并始终提高了优于强大基线的Best-of-N重新排序精度。此外,将受控的损坏注入到提取的约束中会产生单调的性能下降,从而提供因果证据,表明收益来自约束保真度和显式前提验证,而不是偶然的提示效果。
🔬 方法详解
问题定义:现有的视觉-语言过程奖励模型(VL-PRMs)在评估推理步骤时,容易受到视觉感知偏差的影响。当模型给出一个步骤打低分时,我们无法确定是由于推理错误还是模型对图像的理解有偏差。这种感知和推理的纠缠导致模型奖励幻觉视觉前提(假阳性)或惩罚正确的基于视觉的陈述(假阴性),从而影响模型的可靠性和准确性。
核心思路:EVPV的核心思路是通过显式地验证推理步骤所依赖的视觉前提的可靠性,来解耦感知不确定性与逻辑评估。具体来说,EVPV首先让模型生成一个视觉检查表,明确推理步骤所需的视觉事实。然后,EVPV独立地从输入图像中提取结构化的视觉约束。最后,EVPV将检查表中的声明与提取的视觉约束进行匹配,计算出一个视觉可靠性信号,并根据该信号调整奖励模型的输出。
技术框架:EVPV主要包含三个模块:策略模块(Policy),约束提取器(Constraint Extractor)和可靠性门控(Reliability Gating)。策略模块负责生成逐步的视觉检查表,明确推理步骤所需的视觉事实。约束提取器独立地从输入图像中提取结构化的视觉约束。可靠性门控模块将检查表声明与视觉约束进行匹配,计算视觉可靠性信号,并使用该信号校准奖励模型的输出。整体流程是:输入图像和问题 -> 策略模块生成视觉检查表 -> 约束提取器提取视觉约束 -> 可靠性门控计算可靠性信号并校准奖励。
关键创新:EVPV的关键创新在于引入了显式的视觉前提验证机制。与传统的黑盒奖励模型不同,EVPV能够明确地识别和验证推理步骤所依赖的视觉信息,从而减少了感知偏差对奖励信号的影响。此外,EVPV采用轻量级的验证接口,无需每步调用外部工具,降低了计算成本。
关键设计:EVPV的关键设计包括:1) 使用prompt引导策略模块生成高质量的视觉检查表;2) 设计有效的约束提取器,能够准确地从图像中提取结构化的视觉约束;3) 设计可靠性门控机制,能够根据视觉可靠性信号合理地调整奖励模型的输出。具体的技术细节包括prompt的设计、约束提取器的网络结构和损失函数、以及可靠性门控的计算公式等。这些细节的设计旨在提高EVPV的验证准确性和效率。
📊 实验亮点
实验结果表明,EVPV在VisualProcessBench和六个多模态推理基准上均取得了显著的性能提升。例如,在VisualProcessBench上,EVPV将步骤级验证的准确率提高了X%。在Best-of-N重新排序任务中,EVPV也优于多个强大的基线模型,证明了其有效性。此外,通过向提取的约束中注入受控的损坏,实验证明了EVPV的性能提升确实来自于约束的保真度和显式前提验证,而非偶然的prompt效果。
🎯 应用场景
EVPV可应用于各种需要视觉-语言推理的场景,例如视觉问答、图像描述生成、机器人导航等。通过提高奖励模型的可靠性,EVPV能够提升这些应用在复杂环境下的性能和鲁棒性,具有重要的实际应用价值和广阔的未来发展前景。
📄 摘要(原文)
Vision-language process reward models (VL-PRMs) are increasingly used to score intermediate reasoning steps and rerank candidates under test-time scaling. However, they often function as black-box judges: a low step score may reflect a genuine reasoning mistake or simply the verifier's misperception of the image. This entanglement between perception and reasoning leads to systematic false positives (rewarding hallucinated visual premises) and false negatives (penalizing correct grounded statements), undermining both reranking and error localization. We introduce Explicit Visual Premise Verification (EVPV), a lightweight verification interface that conditions step scoring on the reliability of the visual premises a step depends on. The policy is prompted to produce a step-wise visual checklist that makes required visual facts explicit, while a constraint extractor independently derives structured visual constraints from the input image. EVPV matches checklist claims against these constraints to compute a scalar visual reliability signal, and calibrates PRM step rewards via reliability gating: rewards for visually dependent steps are attenuated when reliability is low and preserved when reliability is high. This decouples perceptual uncertainty from logical evaluation without per-step tool calls. Experiments on VisualProcessBench and six multimodal reasoning benchmarks show that EVPV improves step-level verification and consistently boosts Best-of-N reranking accuracy over strong baselines. Furthermore, injecting controlled corruption into the extracted constraints produces monotonic performance degradation, providing causal evidence that the gains arise from constraint fidelity and explicit premise verification rather than incidental prompt effects. Code is available at: https://github.com/Qwen-Applications/EVPV-PRM