More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models

作者: Xinyu Tian, Shu Zou, Zhaoyuan Yang, Mengqi He, Fabian Waschkowski, Lukas Wesemann, Peter Tu, Jing Zhang

分类: cs.CV, cs.AI

发布日期: 2025-09-30 (更新: 2025-10-02)

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

揭示视觉语言模型推理的二元性，提出VAPO优化视觉感知能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 推理 视觉遗忘 强化学习 策略优化 视觉锚定 多模态学习

📋 核心要点

现有视觉语言模型在推理过程中存在“视觉遗忘”问题，即推理时间越长，对视觉信息的依赖性越低，导致识别错误。
论文提出视觉锚定策略优化(VAPO)方法，通过引导推理过程关注视觉信息，从而增强模型对视觉输入的依赖。
实验结果表明，VAPO-Thinker-7B模型在多个基准测试中取得了新的state-of-the-art结果，验证了该方法的有效性。

📝 摘要（中文）

大型语言模型(LLM)中的推理能力日益重要。通过强化学习(RL)，特别是组相对策略优化(GRPO)，这些模型能够解决复杂的任务，如数学和代码生成。基于这些进展，最近的研究试图将推理扩展到视觉语言模型(VLM)，在各种视觉任务中取得了可喜的成果。然而，我们的研究揭示了多模态推理的二元性：虽然它大大增强了逻辑推理并促进了对具有挑战性问题的解决，但它可能会逐渐损害感知基础，导致对原本基本的视觉问题的识别失败。通过进一步分析，我们将这种现象归因于视觉遗忘，即长时间的推理导致模型越来越忽视视觉输入。为了解决这个问题，我们提出了一种简单而有效的方法，即视觉锚定策略优化(VAPO)，它明确地引导推理过程朝着视觉基础的轨迹发展。我们的结果模型VAPO-Thinker-7B显著增强了模型对视觉信息的依赖，并在各种已建立的基准上取得了新的最先进的结果。

🔬 方法详解

问题定义：论文旨在解决视觉语言模型在进行复杂推理时，逐渐忽略视觉信息，导致视觉感知能力下降的问题。现有方法，如直接应用大型语言模型的推理策略，虽然增强了逻辑推理能力，但未能有效保持模型对视觉输入的关注，导致“视觉遗忘”现象。

核心思路：论文的核心思路是通过强化学习，显式地引导模型的推理过程，使其更加依赖于视觉信息。具体来说，通过设计奖励函数，鼓励模型在推理过程中关注与视觉输入相关的轨迹，从而避免模型过度依赖语言信息而忽略视觉信息。

技术框架：整体框架基于现有的视觉语言模型，并引入强化学习模块进行策略优化。主要包含以下几个阶段：1) 使用视觉语言模型生成初步的推理轨迹；2) 使用奖励函数评估推理轨迹的视觉相关性；3) 使用策略优化算法（如GRPO）更新模型参数，使模型倾向于生成视觉相关的推理轨迹；4) 重复以上步骤，直到模型收敛。

关键创新：最重要的技术创新点是提出了视觉锚定策略优化(VAPO)方法，该方法通过显式地引导推理过程关注视觉信息，有效缓解了视觉语言模型中的“视觉遗忘”问题。与现有方法相比，VAPO方法更加注重视觉信息的利用，从而提高了模型的视觉感知能力。

关键设计：VAPO的关键设计在于奖励函数的设计。奖励函数需要能够准确地评估推理轨迹的视觉相关性。论文中可能使用了某种度量方式来衡量推理步骤与视觉输入之间的关联程度，例如，通过计算注意力权重或使用视觉 grounding 技术来判断推理步骤是否关注了相关的视觉区域。具体的损失函数可能包含一个正则化项，用于惩罚那些过度依赖语言信息而忽略视觉信息的推理轨迹。此外，可能还涉及到一些超参数的调整，例如，强化学习的学习率、奖励函数的权重等。

📊 实验亮点

VAPO-Thinker-7B模型在多个视觉语言基准测试中取得了新的state-of-the-art结果，表明该方法能够有效提升模型的视觉感知能力和推理能力。具体的性能提升幅度未知，但摘要中强调了“显著增强了模型对视觉信息的依赖”，暗示了VAPO的有效性。

🎯 应用场景

该研究成果可应用于需要强视觉 grounding 的视觉语言任务，例如视觉问答、图像描述、视觉推理等。通过提升模型对视觉信息的利用率，可以提高模型在这些任务中的准确性和鲁棒性。此外，该研究对于开发更可靠、更符合人类直觉的视觉语言模型具有重要意义，有助于推动人工智能在实际场景中的应用。

📄 摘要（原文）

Reasoning has emerged as a pivotal capability in Large Language Models (LLMs). Through Reinforcement Learning (RL), typically Group Relative Policy Optimization (GRPO), these models are able to solve complex tasks such as mathematics and code generation. Building on these advances, recent research has sought to extend reasoning to Vision-Language Models (VLMs), yielding promising results across diverse visual tasks. Despite this progress, our study uncovers the dual nature of multimodal reasoning: while it substantially enhances logical inference and facilitates performance on challenging problems, it may gradually impair perceptual grounding, leading to recognition failures on otherwise basic visual questions. Through further analysis, we attribute this phenomenon to visual forgetting, wherein prolonged reasoning causes the model to increasingly disregard visual input. To address this, we propose Vision-Anchored Policy Optimization (VAPO), a simple yet effective method that explicitly steers the reasoning process toward visually grounded trajectories. Our result model, VAPO-Thinker-7B, significantly strengthens the model's reliance on visual information and achieves new state-of-the-art results on a wide range of established benchmarks. Project page: https://xytian1008.github.io/VAPO/

More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册