TIM-PRM: Verifying multimodal reasoning with Tool-Integrated PRM

📄 arXiv: 2511.22998v2 📥 PDF

作者: Peng Kuang, Xiangxiang Wang, Wentao Liu, Jian Dong, Kaidi Xu

分类: cs.AI

发布日期: 2025-11-28 (更新: 2025-12-31)

备注: 12 pages


💡 一句话要点

提出TIM-PRM,通过工具集成主动验证多模态推理,解决幻觉和逻辑不一致问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 过程奖励模型 工具集成 主动验证 视觉幻觉 逻辑一致性 独立提问 确认偏差

📋 核心要点

  1. 现有MLLM易受视觉幻觉和逻辑不一致影响,传统PRM方法存在谄媚现象,无法有效验证。
  2. TIM-PRM将验证转变为主动的工具增强调查,通过独立提问机制消除确认偏差。
  3. 实验表明,TIM-PRM在VisualProcessBench上超越现有开源多模态PRM,性能优于更大模型。

📝 摘要(中文)

多模态大型语言模型(MLLM)在数学推理方面取得了显著成果,但仍易受视觉幻觉和逻辑不一致的影响,而标准的基于结果的监督无法缓解这些问题。过程奖励模型(PRM)有望实现逐步验证,但当前的方法通常作为标量评分器或生成式评论器,容易产生谄媚现象,盲目地验证有缺陷的假设,而不是将其扎根于视觉现实。为了弥合这一差距,我们引入了TIM-PRM(工具集成多模态PRM),这是一种新颖的代理框架,它将验证从被动的分类任务转变为主动的、工具增强的调查。TIM-PRM经过训练,可以显式地规划验证策略,并利用独立提问机制通过外部工具查询证据,有效地将验证与推理上下文分离,从而消除确认偏差。我们通过策划一个高质量的工具集成验证轨迹数据集来实例化该方法。在VisualProcessBench上的大量实验表明,我们的8B参数模型超越了现有的开源多模态PRM,显著优于更大的模型,如Qwen2.5-72B和InternVL-78B,同时为验证过程提供了可解释的见解。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)在数学推理中存在的视觉幻觉和逻辑不一致问题。现有的过程奖励模型(PRM)通常作为标量评分器或生成式评论器,容易受到谄媚现象的影响,即盲目地验证错误的假设,而不能有效地将推理过程与视觉现实相结合。

核心思路:论文的核心思路是将验证过程从一个被动的分类任务转变为一个主动的、工具增强的调查过程。通过引入工具集成,模型可以主动地查询外部信息,验证推理步骤的正确性。同时,采用独立提问机制,将验证过程与原始的推理上下文解耦,从而避免确认偏差。

技术框架:TIM-PRM的核心是一个代理框架,它包含以下几个主要模块:1) 验证策略规划器:负责规划验证步骤和选择合适的工具。2) 工具集成模块:负责与外部工具进行交互,获取验证所需的证据。3) 独立提问模块:负责生成独立于原始推理上下文的问题,以避免确认偏差。4) 验证结果评估器:负责根据工具返回的证据评估推理步骤的正确性。整个流程是,首先由验证策略规划器制定验证计划,然后通过独立提问模块生成问题,并利用工具集成模块查询外部工具,最后由验证结果评估器根据返回的证据判断推理步骤是否正确。

关键创新:TIM-PRM最重要的技术创新点在于将验证过程从被动分类转变为主动调查,并引入了工具集成和独立提问机制。与现有方法相比,TIM-PRM能够更有效地利用外部信息,避免确认偏差,从而提高验证的准确性。

关键设计:论文中一个关键的设计是独立提问机制,它通过生成独立于原始推理上下文的问题来避免确认偏差。具体的实现方式是,模型在生成问题时,会尽量避免使用原始推理步骤中的信息,而是根据当前需要验证的步骤,独立地生成问题。此外,论文还构建了一个高质量的工具集成验证轨迹数据集,用于训练TIM-PRM模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TIM-PRM在VisualProcessBench数据集上显著优于现有的开源多模态PRM模型,并且超越了参数量更大的模型,如Qwen2.5-72B和InternVL-78B。这表明TIM-PRM在多模态推理验证方面具有强大的能力和潜力。

🎯 应用场景

TIM-PRM可应用于各种需要多模态推理和验证的场景,例如自动驾驶、医疗诊断、智能客服等。通过提高多模态推理的可靠性和准确性,可以提升这些应用的性能和安全性,并为用户提供更可信赖的服务。未来,该技术有望在教育、科研等领域发挥重要作用。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have achieved impressive performances in mathematical reasoning, yet they remain vulnerable to visual hallucinations and logical inconsistencies that standard outcome-based supervision fails to mitigate. While Process Reward Models (PRMs) promise step-by-step verification, current approaches typically operate as scalar scorers or generative critics that suffer from sycophancy, blindly validating the flawed hypotheses rather than grounding them in visual reality. To bridge this gap, we introduce TIM-PRM (Tool-Integrated Multimodal PRM), a novel agentic framework that transforms verification from a passive classification task into an active, tool-augmented investigation. TIM-PRM is trained to explicitly plan verification strategies and utilizes a mechanism of Independent Question Asking to query evidence via external tools, effectively decoupling verification from the reasoning context to eliminate confirmation bias. We instantiate this method by curating a high-quality dataset of tool-integrated verification trajectories. Extensive experiments on VisualProcessBench demonstrate that our 8B parameter model surpasses existing open-source multimodal PRMs, significantly outperforming much larger models like Qwen2.5-72B and InternVL-78B, while offering interpretable insights into the verification process.