Enhancing Spatial Reasoning in Vision-Language Models via Chain-of-Thought Prompting and Reinforcement Learning

📄 arXiv: 2507.13362v1 📥 PDF

作者: Binbin Ji, Siddharth Agrawal, Qiance Tang, Yvonne Wu

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-07-06

备注: 10 pages, 5 figures, submitted to a conference (IEEE formate). Authored by students from the Courant Institute, NYU

🔗 代码/项目: GITHUB


💡 一句话要点

通过思维链提示和强化学习增强视觉语言模型中的空间推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 空间推理 思维链提示 强化学习 场景图 群体相对策略优化 泛化能力

📋 核心要点

  1. 现有视觉语言模型在空间推理方面存在不足,简单的思维链提示甚至会降低性能。
  2. 论文提出基于场景图的结构化多阶段提示(SceneGraph CoT)和群体相对策略优化(GRPO)方法。
  3. 实验表明,GRPO在Pass@1评估中优于监督微调,且在分布外数据上表现出更强的鲁棒性。

📝 摘要(中文)

本研究通过思维链(CoT)提示和强化学习来研究视觉语言模型(VLMs)的空间推理能力。我们首先评估了不同提示策略的影响,发现简单的CoT格式,即模型在回答之前生成推理步骤,不仅没有帮助,甚至会损害模型原有的性能。相比之下,基于场景图的结构化多阶段提示(SceneGraph CoT)显著提高了空间推理的准确性。此外,为了提高空间推理能力,我们使用群体相对策略优化(GRPO)在SAT数据集上对模型进行微调,并在CVBench上评估其性能。与监督微调(SFT)相比,GRPO在Pass@1评估中实现了更高的准确率,并在分布外(OOD)条件下表现出更强的鲁棒性。我们发现SFT过度拟合了表面语言模式,并且当测试时的措辞发生变化时(例如,从“更靠近”到“更远离”),可能会降低性能。另一方面,GRPO泛化能力更强,并且在这种变化下保持稳定的性能。我们的研究结果深入了解了强化学习和结构化提示如何提高现代VLM的空间推理能力和泛化行为。

🔬 方法详解

问题定义:现有视觉语言模型在空间推理任务中表现不佳,尤其是在需要复杂推理步骤的场景下。简单的思维链提示方法,即让模型先生成推理步骤再给出答案,反而会降低模型的原始性能。监督微调(SFT)虽然可以提升性能,但容易过拟合训练数据中的表面语言模式,导致在测试时面对措辞变化时性能下降。

核心思路:论文的核心思路是利用结构化的场景图信息来引导模型的推理过程,并使用强化学习来提升模型的泛化能力。通过场景图,模型可以更好地理解场景中的对象及其关系,从而进行更准确的空间推理。强化学习则可以鼓励模型学习更鲁棒的策略,避免过度依赖训练数据中的特定语言模式。

技术框架:整体框架包含两个主要部分:基于场景图的思维链提示(SceneGraph CoT)和基于群体相对策略优化(GRPO)的强化学习微调。首先,对于给定的视觉场景和问题,SceneGraph CoT会利用场景图提取场景中的对象和关系信息,并将其融入到提示中,引导模型进行多阶段的推理。然后,使用GRPO在SAT数据集上对模型进行微调,以提升其空间推理能力和泛化能力。最后,在CVBench数据集上评估模型的性能。

关键创新:最重要的技术创新点在于结合了结构化的场景图信息和强化学习。SceneGraph CoT通过场景图提供了更丰富的上下文信息,帮助模型进行更准确的推理。GRPO则通过奖励模型在不同措辞下的稳定表现,提升了模型的泛化能力,使其能够更好地应对测试时措辞的变化。与传统的监督微调相比,GRPO避免了过度拟合表面语言模式的问题。

关键设计:SceneGraph CoT的关键设计在于如何有效地利用场景图信息。论文采用了一种多阶段的提示策略,首先让模型识别场景中的对象和关系,然后基于这些信息进行推理。GRPO的关键设计在于奖励函数的选择。论文使用了一种群体相对奖励函数,鼓励模型在不同措辞下保持一致的预测结果。具体来说,对于一个给定的问题,模型会生成多个答案,然后计算这些答案之间的相似度。如果这些答案相似度高,则给予模型较高的奖励,反之则给予较低的奖励。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,SceneGraph CoT显著提高了空间推理的准确性。与监督微调(SFT)相比,GRPO在Pass@1评估中实现了更高的准确率,并在分布外(OOD)条件下表现出更强的鲁棒性。具体来说,GRPO能够更好地应对测试时措辞的变化,保持稳定的性能,而SFT则容易受到措辞变化的影响。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、智能家居等领域。例如,机器人可以利用空间推理能力更好地理解周围环境,从而进行更智能的导航和交互。自动驾驶系统可以利用该技术更准确地识别交通标志和行人,提高驾驶安全性。智能家居系统可以利用该技术更好地理解用户的指令,提供更个性化的服务。

📄 摘要(原文)

This study investigates the spatial reasoning capabilities of vision-language models (VLMs) through Chain-of-Thought (CoT) prompting and reinforcement learning. We begin by evaluating the impact of different prompting strategies and find that simple CoT formats, where the model generates a reasoning step before the answer, not only fail to help, but can even harm the model's original performance. In contrast, structured multi-stage prompting based on scene graphs (SceneGraph CoT) significantly improves spatial reasoning accuracy. Furthermore, to improve spatial reasoning ability, we fine-tune models using Group Relative Policy Optimization (GRPO) on the SAT dataset and evaluate their performance on CVBench. Compared to supervised fine-tuning (SFT), GRPO achieves higher accuracy on Pass@1 evaluations and demonstrates superior robustness under out-of-distribution (OOD) conditions. In particular, we find that SFT overfits to surface-level linguistic patterns and may degrade performance when test-time phrasing changes (e.g., from "closer to" to "farther from"). GRPO, on the other hand, generalizes more reliably and maintains stable performance under such shifts. Our findings provide insights into how reinforcement learning and structured prompting improve the spatial reasoning capabilities and generalization behavior of modern VLMs. All code is open source at: https://github.com/Yvonne511/spatial-vlm-investigator