V-tableR1: Process-Supervised Multimodal Table Reasoning with Critic-Guided Policy Optimization
作者: Yubo Jiang, Yitong An, Xin Yang, Abudukelimu Wuerkaixi, Xuxin Cheng, Fengying Xie, Zhiguo Jiang, Cao Liu, Ke Zeng, Haopeng Zhang
分类: cs.AI, cs.LG
发布日期: 2026-04-22
备注: 15 pages, 4 figures, 4 tables
💡 一句话要点
V-tableR1:提出流程监督的多模态表格推理框架,通过评论家引导的策略优化实现可验证的推理。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 表格推理 强化学习 视觉推理 流程监督 大型语言模型 可验证推理
📋 核心要点
- 现有MLLM在视觉推理中存在黑盒问题,依赖于表面模式匹配,缺乏可验证的多步推理能力。
- V-tableR1利用表格的网格结构,通过评论家VLM提供步进式反馈,引导策略VLM生成可验证的视觉思维链。
- 提出的PGPO算法集成了流程奖励、解耦策略约束和长度感知动态采样,有效惩罚了视觉幻觉和捷径猜测,提升了推理精度。
📝 摘要(中文)
本文提出了V-tableR1,一个流程监督的强化学习框架,旨在从多模态大型语言模型(MLLM)中引出严格、可验证的推理。当前仅基于最终结果训练的MLLM通常将视觉推理视为黑盒,依赖于表面模式匹配而非执行严格的多步推理。虽然具有可验证奖励的强化学习可以强制执行透明的推理轨迹,但将其扩展到视觉领域仍然受到将抽象逻辑扎根到连续像素空间中的模糊性的严重阻碍。本文利用表格的确定性网格结构作为理想的视觉测试平台来解决这个问题。V-tableR1采用专门的评论家VLM,为策略VLM生成的显式视觉思维链提供密集的、步进式反馈。为了优化该系统,本文提出了一种新的RL算法,即流程引导的直接对齐策略优化(PGPO),该算法集成了流程奖励、解耦策略约束和长度感知动态采样。广泛的评估表明,V-tableR1明确地惩罚了视觉幻觉和捷径猜测。通过从根本上将多模态推理从黑盒模式匹配转变为可验证的逻辑推导,V-tableR1 4B在复杂的表格基准测试中建立了最先进的开源模型精度,优于高达其18倍大小的模型,并优于其SFT基线。
🔬 方法详解
问题定义:现有MLLM在处理视觉推理任务时,特别是表格推理,往往依赖于黑盒式的模式匹配,缺乏透明且可验证的推理过程。这种方式容易产生视觉幻觉和捷径猜测,导致推理结果不可靠。现有方法难以将抽象逻辑有效地扎根到连续的像素空间中,限制了强化学习在视觉推理领域的应用。
核心思路:V-tableR1的核心思路是利用表格的确定性网格结构作为视觉推理的理想测试平台,通过引入流程监督机制,引导MLLM生成可验证的推理轨迹。具体而言,该方法使用一个专门的评论家VLM来评估策略VLM生成的视觉思维链,并提供密集的、步进式的反馈,从而鼓励模型进行更严谨的多步推理。
技术框架:V-tableR1的技术框架主要包含两个VLM:策略VLM和评论家VLM。策略VLM负责生成视觉思维链,即一系列逐步的推理步骤,用于解决表格推理问题。评论家VLM则负责评估策略VLM生成的每一步推理是否合理,并给出相应的奖励或惩罚。此外,该框架还采用了流程引导的直接对齐策略优化(PGPO)算法,用于优化策略VLM,使其能够生成更准确、更可信的推理轨迹。
关键创新:V-tableR1的关键创新在于引入了流程监督机制,通过评论家VLM对策略VLM的推理过程进行步进式评估,从而实现了可验证的视觉推理。此外,提出的PGPO算法集成了流程奖励、解耦策略约束和长度感知动态采样,进一步提升了模型的推理性能。与现有方法相比,V-tableR1能够更有效地惩罚视觉幻觉和捷径猜测,从而提高推理结果的可靠性。
关键设计:PGPO算法是V-tableR1的关键设计之一。该算法通过流程奖励来鼓励模型生成更长的、更详细的推理轨迹。解耦策略约束则用于限制策略的更新幅度,防止模型过度拟合。长度感知动态采样则用于平衡不同长度的推理轨迹对模型训练的影响。此外,评论家VLM的设计也至关重要,需要具备强大的视觉理解和推理能力,才能准确评估策略VLM的推理过程。
🖼️ 关键图片
📊 实验亮点
V-tableR1在复杂的表格基准测试中取得了最先进的开源模型精度,超越了高达其18倍大小的模型,并显著优于其SFT基线。实验结果表明,V-tableR1能够有效惩罚视觉幻觉和捷径猜测,从而提高推理结果的可靠性。这些结果验证了流程监督机制在多模态推理中的有效性。
🎯 应用场景
V-tableR1具有广泛的应用前景,可应用于金融报表分析、医学影像诊断、科学数据挖掘等领域。该研究有助于提升多模态信息处理系统的可靠性和可解释性,为构建更智能、更值得信赖的人工智能系统奠定基础。未来,该方法有望扩展到其他具有结构化特征的视觉推理任务中。
📄 摘要(原文)
We introduce V-tableR1, a process-supervised reinforcement learning framework that elicits rigorous, verifiable reasoning from multimodal large language models (MLLMs). Current MLLMs trained solely on final outcomes often treat visual reasoning as a black box, relying on superficial pattern matching rather than performing rigorous multi-step inference. While Reinforcement Learning with Verifiable Rewards could enforce transparent reasoning trajectories, extending it to visual domains remains severely hindered by the ambiguity of grounding abstract logic into continuous pixel space. We solve this by leveraging the deterministic grid structure of tables as an ideal visual testbed. V-tableR1 employs a specialized critic VLM to provide dense, step-level feedback on the explicit visual chain-of-thought generated by a policy VLM. To optimize this system, we propose Process-Guided Direct Alignment Policy Optimization (PGPO), a novel RL algorithm integrating process rewards, decoupled policy constraints, and length-aware dynamic sampling. Extensive evaluations demonstrate that V-tableR1 explicitly penalizes visual hallucinations and shortcut guessing. By fundamentally shifting multimodal inference from black-box pattern matching to verifiable logical derivation, V-tableR1 4B establishes state-of-the-art accuracy among open-source models on complex tabular benchmarks, outperforming models up to 18x its size and improving over its SFT baseline