Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization
作者: Sai Srinivas Kancheti, Aditya Kanade, Rohit Sinha, Vineeth N Balasubramanian, Tanuja Ganu
分类: cs.CV, cs.AI
发布日期: 2026-04-09
💡 一句话要点
提出 Faithful GRPO,通过约束策略优化提升多模态语言模型中的视觉空间推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态推理 视觉空间推理 强化学习 约束优化 思维链 可解释性 视觉基础
📋 核心要点
- 现有视觉推理模型在提升准确率的同时,常牺牲推理质量,导致思维链与答案不一致,视觉依据不足。
- 提出Faithful GRPO,通过拉格朗日对偶上升,将一致性和视觉基础作为约束,提升推理质量。
- 实验表明,FGRPO显著降低了不一致率,提高了视觉基础得分,并提升了最终答案的准确性。
📝 摘要(中文)
多模态推理模型(MRM)通过可验证奖励的强化学习(RLVR)训练后,在视觉推理基准测试中表现出更高的准确性。然而,我们观察到准确性的提高往往以牺牲推理质量为代价:生成的思维链(CoT)轨迹经常与最终答案不一致,并且在视觉证据中缺乏充分的依据。我们系统地研究了七个具有挑战性的真实世界空间推理基准测试中的这种现象,发现它影响了当前的MRM,如ViGoRL-Spatial、TreeVGR以及我们自己使用标准Group Relative Policy Optimization(GRPO)训练的模型。我们将CoT推理质量沿两个互补的轴进行表征:“逻辑一致性”(CoT是否蕴含最终答案?)和“视觉基础”(每个推理步骤是否准确地描述了图像中的对象、属性和空间关系?)。为了解决这个问题,我们提出了Faithful GRPO(FGRPO),它是GRPO的一种变体,通过拉格朗日对偶上升将一致性和基础作为约束来强制执行。FGRPO将批处理级别的一致性和基础约束纳入组内的优势计算中,自适应地调整优化过程中约束的相对重要性。我们在Qwen2.5-VL-7B和3B骨干网络上,跨七个空间数据集评估了FGRPO。我们的结果表明,FGRPO显著提高了推理质量,将不一致率从24.5%降低到1.7%,并将视觉基础得分提高了+13%。它还提高了最终答案的准确性,证明了忠实的推理能够产生更好的答案。
🔬 方法详解
问题定义:现有的多模态推理模型,如ViGoRL-Spatial和TreeVGR,在视觉空间推理任务中,虽然可以通过强化学习提升准确率,但生成的思维链(CoT)往往与最终答案不一致,或者缺乏足够的视觉依据。这意味着模型可能“蒙对”了答案,但推理过程是不可靠的。这种不可靠的推理过程限制了模型的可解释性和泛化能力。
核心思路:Faithful GRPO的核心思路是在Group Relative Policy Optimization(GRPO)的基础上,引入一致性和视觉基础作为约束条件。通过拉格朗日对偶上升,将这些约束融入到优化过程中,从而引导模型生成更符合逻辑且有视觉依据的推理过程。这样设计的目的是让模型不仅能给出正确的答案,还能提供可信的推理路径。
技术框架:FGRPO的整体框架是在GRPO的基础上进行改进。首先,模型生成思维链(CoT)和最终答案。然后,计算CoT的逻辑一致性和视觉基础得分。接着,将这些得分作为约束条件,通过拉格朗日对偶上升,更新策略。具体来说,FGRPO将批处理级别的一致性和基础约束纳入组内的优势计算中,自适应地调整优化过程中约束的相对重要性。
关键创新:FGRPO的关键创新在于将一致性和视觉基础作为约束条件,并将其融入到强化学习的优化过程中。与传统的GRPO相比,FGRPO不仅关注最终答案的准确性,还关注推理过程的质量。这种约束优化方法能够有效地提高推理过程的可靠性和可解释性。
关键设计:FGRPO的关键设计包括:1) 使用拉格朗日对偶上升来处理约束条件;2) 在批处理级别计算一致性和视觉基础得分,以提高效率;3) 自适应地调整优化过程中约束的相对重要性,以平衡准确性和推理质量。具体的损失函数包括原始GRPO的损失函数,以及与一致性和视觉基础相关的拉格朗日乘子项。这些拉格朗日乘子通过对偶上升算法进行更新。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FGRPO在七个空间数据集上显著提高了推理质量,将不一致率从24.5%降低到1.7%,并将视觉基础得分提高了+13%。此外,FGRPO还提高了最终答案的准确性,证明了忠实的推理能够产生更好的答案。这些结果表明,FGRPO是一种有效的提升多模态语言模型视觉空间推理能力的方法。
🎯 应用场景
该研究成果可应用于需要高度可信和可解释的视觉推理场景,例如自动驾驶、医疗诊断、智能客服等。在这些领域,模型不仅需要给出正确的答案,还需要提供清晰、可靠的推理过程,以确保决策的合理性和安全性。未来,该方法可以进一步扩展到其他多模态任务中,提升模型的推理能力和可信度。
📄 摘要(原文)
Multimodal reasoning models (MRMs) trained with reinforcement learning with verifiable rewards (RLVR) show improved accuracy on visual reasoning benchmarks. However, we observe that accuracy gains often come at the cost of reasoning quality: generated Chain-of-Thought (CoT) traces are frequently inconsistent with the final answer and poorly grounded in the visual evidence. We systematically study this phenomenon across seven challenging real-world spatial reasoning benchmarks and find that it affects contemporary MRMs such as ViGoRL-Spatial, TreeVGR as well as our own models trained with standard Group Relative Policy Optimization (GRPO). We characterize CoT reasoning quality along two complementary axes: "logical consistency" (does the CoT entail the final answer?) and "visual grounding" (does each reasoning step accurately describe objects, attributes, and spatial relationships in the image?). To address this, we propose Faithful GRPO (FGRPO), a variant of GRPO that enforces consistency and grounding as constraints via Lagrangian dual ascent. FGRPO incorporates batch-level consistency and grounding constraints into the advantage computation within a group, adaptively adjusting the relative importance of constraints during optimization. We evaluate FGRPO on Qwen2.5-VL-7B and 3B backbones across seven spatial datasets. Our results show that FGRPO substantially improves reasoning quality, reducing the inconsistency rate from 24.5% to 1.7% and improving visual grounding scores by +13%. It also improves final answer accuracy over simple GRPO, demonstrating that faithful reasoning enables better answers.