Reward Design for Physical Reasoning in Vision-Language Models

📄 arXiv: 2604.13993v1 📥 PDF

作者: Derek Lilienthal, Manisha Mukherjee, Sameera Horawalavithana

分类: cs.AI, cs.CL, cs.CV

发布日期: 2026-04-15


💡 一句话要点

针对视觉语言模型物理推理,提出基于GRPO的奖励函数设计方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉语言模型 物理推理 奖励函数设计 群体相对策略优化 注意力机制

📋 核心要点

  1. 现有视觉语言模型在物理推理任务中表现不佳,难以有效整合视觉感知、领域知识和多步推理。
  2. 论文提出基于群体相对策略优化(GRPO)的奖励函数设计方法,探索不同奖励信号对VLM物理推理行为的影响。
  3. 实验表明,基于准确性的奖励能带来最强的整体收益,而基于注意力的奖励则能有效提升空间推理能力。

📝 摘要(中文)

视觉输入上的物理推理需要视觉感知、领域知识和多步符号推理的紧密结合。然而,即使是最先进的视觉语言模型(VLMs)在物理基准测试中也远低于人类的表现。虽然监督微调(SFT)和群体相对策略优化(GRPO)等后训练算法已经在语言模型中展示了强大的推理能力,但奖励设计如何影响VLM的物理推理行为仍然知之甚少。我们提出了一项系统的奖励消融研究,用于基于GRPO的VLM物理推理训练。我们比较了四种语义丰富度递增的奖励信号:格式合规性、答案准确性、综合评分奖励(答案正确性、物理原理识别和单位一致性)以及一种从模型在输入图像区域上的注意力权重中提取的新型内部奖励。我们使用IBM Granite Vision 3.3 (2B)在PhyX上进行评估,PhyX是一个包含3000个问题的基准测试,涵盖六个物理领域和六种推理类型,包括多项选择和开放式格式。在两种格式中,基于准确性的奖励的GRPO在大多数领域优于SFT,尽管收益因奖励类型和领域而异。奖励设计并不能统一提高性能,而是诱导特定领域的推理行为。基于准确性的奖励提供了最强的整体收益。评分奖励提高了结构化推理质量,但没有持续的准确性提高。基于注意力的奖励增强了空间推理,同时降低了符号领域的性能。我们的内部注意力权重奖励不需要空间注释,并将空间关系准确率从0.27提高到0.50,这表明监督模型在生成过程中关注的位置是视觉基础物理推理的一个有希望的方向。

🔬 方法详解

问题定义:现有视觉语言模型在处理涉及物理推理的任务时,性能远低于人类水平。它们难以有效地整合视觉信息、物理领域的知识以及进行多步骤的符号推理。现有的后训练方法,如监督微调(SFT),虽然在一定程度上提升了性能,但对于如何通过奖励函数的设计来引导VLM进行物理推理,仍然缺乏深入的理解。

核心思路:论文的核心思路是通过系统性地研究不同类型的奖励函数,来探索奖励函数设计对VLM物理推理行为的影响。通过比较不同语义丰富度的奖励信号,例如格式合规性、答案准确性、综合评分奖励和基于注意力权重的内部奖励,来分析它们各自对VLM在不同物理领域和推理类型上的表现的影响。

技术框架:论文采用基于群体相对策略优化(GRPO)的VLM训练框架。该框架使用IBM Granite Vision 3.3 (2B)模型,并在PhyX数据集上进行评估。PhyX数据集包含3000个问题,涵盖六个物理领域和六种推理类型,包括多项选择和开放式格式。实验中,对比了四种奖励信号:格式合规性、答案准确性、综合评分奖励(包含答案正确性、物理原理识别和单位一致性)以及基于模型注意力权重的内部奖励。

关键创新:论文的关键创新在于提出了基于模型注意力权重的内部奖励,该奖励不需要额外的空间标注信息,而是直接利用模型在处理图像时对不同区域的关注程度。通过监督模型在生成答案时关注相关的图像区域,可以有效地提升VLM在视觉基础物理推理任务中的性能。

关键设计:论文的关键设计包括:1) 提出了综合评分奖励,该奖励不仅考虑答案的正确性,还考虑了物理原理的识别和单位的一致性;2) 设计了基于注意力权重的内部奖励,通过计算模型注意力权重与图像区域的相关性来指导模型的学习;3) 使用GRPO算法进行训练,该算法能够有效地利用奖励信号来优化模型的策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于准确性的奖励在大多数领域优于监督微调(SFT)。基于注意力权重的内部奖励在不需要空间标注的情况下,将空间关系准确率从0.27提高到0.50。这些结果表明,奖励函数的设计对VLM的物理推理能力有显著影响,并且监督模型在生成过程中关注的位置是一个有希望的研究方向。

🎯 应用场景

该研究成果可应用于开发更智能的机器人和自动化系统,使其能够理解和推理物理世界。例如,在自动驾驶领域,可以利用该技术使车辆更好地理解交通场景中的物理关系,从而做出更安全的决策。此外,该技术还可以应用于教育领域,帮助学生更好地理解物理概念。

📄 摘要(原文)

Physical reasoning over visual inputs demands tight integration of visual perception, domain knowledge, and multi-step symbolic inference. Yet even state-of-the-art Vision Language Models (VLMs) fall far short of human performance on physics benchmarks. While post-training algorithms such as Supervised Fine-Tuning (SFT) and Group Relative Policy Optimization (GRPO) have demonstrated strong reasoning gains in language models, how reward design shapes VLM physical reasoning behavior remains poorly understood. We present a systematic reward ablation study for GRPO-based VLM training on physical reasoning. We compare four reward signals of increasing semantic richness: format compliance, answer accuracy, a composite rubric reward (answer correctness, physics principle identification, and unit consistency), and a novel internal reward derived from model attention weights over input image regions. We evaluate on PhyX, a 3,000-problem benchmark spanning six physics domains and six reasoning types across multiple-choice and open-ended formats, using IBM Granite Vision 3.3 (2B). Across both formats, GRPO with accuracy-based rewards outperforms SFT on most domains, though gains vary substantially by reward type and domain. Reward design does not uniformly improve performance. Instead, it induces domain-specific reasoning behaviors. Accuracy-based rewards provide the strongest overall gains. Rubric rewards improve structured reasoning quality without consistent accuracy improvements. Attention-based rewards enhance spatial reasoning while degrading performance in symbolic domains. Our internal attention-weight reward requires no spatial annotations and improves spatial relation accuracy from 0.27 to 0.50, suggesting that supervising where the model attends during generation is a promising direction for visually grounded physical reasoning.