iVGR: Internalizing Visually Grounded Reasoning for MLLMs with Reinforcement Learning
作者: Chang-Bin Zhang, Yujie Zhong, Qiang Zhang, Kai Han
分类: cs.CV
发布日期: 2026-05-29
备注: Accepted by ICML 2026
💡 一句话要点
提出iVGR,通过强化学习将视觉定位能力内化于多模态大语言模型的文本推理中
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 视觉引导推理 强化学习 思维链 视觉定位
📋 核心要点
- 现有视觉引导的CoT方法在推理时依赖显式目标框,可能干扰模型的核心任务——答案预测。
- iVGR通过强化学习,将视觉定位能力融入文本推理,避免了推理时对显式视觉信息的依赖。
- 实验表明,iVGR在细粒度任务上显著优于现有方法,并保留了工具辅助推理的灵活性。
📝 摘要(中文)
本文研究了视觉引导的思维链(CoT)在多模态大语言模型(MLLM)推理阶段的有效性。实验发现,在推理过程中强制使用显式的目标框反而会降低性能,不如标准的文本CoT。作者假设视觉定位能力可以内化到文本CoT中,而强制性的显式视觉引导会不必要地干扰模型预测答案的主要目标。为了解决这个问题,作者提出了内部化视觉引导推理(iVGR),这是一个新颖的强化学习框架,可以将定位能力转移到文本推理过程中。该框架采用双流训练策略,通过一致性奖励将文本流与高质量的视觉引导流对齐,使模型能够在推理过程中无需显式引导即可精确定位。大量实验表明,该方法在细粒度基准测试中显著优于现有基线,同时保持了支持工具辅助推理工作流程的灵活性。
🔬 方法详解
问题定义:现有视觉引导的CoT方法,在推理阶段强制使用显式的目标框,这可能会对模型的性能产生负面影响。作者认为,这种显式的视觉引导可能会干扰模型进行答案预测这一主要目标,并且视觉定位能力本身可以被内化到文本推理过程中。因此,需要一种方法,能够在训练阶段利用视觉信息,但在推理阶段避免对显式视觉信息的依赖。
核心思路:iVGR的核心思路是通过强化学习,将视觉定位能力从视觉引导的CoT中转移到纯文本的CoT中。具体来说,就是训练一个文本推理模型,使其能够像视觉引导的CoT一样,在没有显式视觉信息的情况下,也能进行准确的推理。这样,在推理阶段,模型就可以直接使用文本信息进行推理,而无需依赖额外的视觉输入。
技术框架:iVGR采用双流训练策略。一个流是标准的视觉引导CoT,它使用图像和目标框作为输入,生成推理过程和最终答案。另一个流是纯文本CoT,它只使用文本信息作为输入,生成推理过程和最终答案。这两个流并行训练,并通过一个一致性奖励进行对齐。一致性奖励鼓励文本流生成的推理过程和答案与视觉引导流生成的推理过程和答案尽可能一致。
关键创新:iVGR的关键创新在于它使用强化学习来训练文本流,使其能够模仿视觉引导流的行为。通过一致性奖励,iVGR能够将视觉定位能力从视觉引导流转移到文本流中,从而使文本流能够在没有显式视觉信息的情况下进行准确的推理。这种方法避免了在推理阶段对显式视觉信息的依赖,提高了模型的效率和鲁棒性。
关键设计:iVGR的关键设计包括:1) 双流训练框架,包括视觉引导流和文本流;2) 一致性奖励,用于对齐两个流的输出;3) 强化学习算法,用于训练文本流。具体来说,一致性奖励可以包括推理过程的一致性奖励和答案的一致性奖励。推理过程的一致性奖励鼓励文本流生成的推理步骤与视觉引导流生成的推理步骤尽可能相似。答案的一致性奖励鼓励文本流生成的最终答案与视觉引导流生成的最终答案尽可能一致。强化学习算法可以使用常见的策略梯度算法,例如REINFORCE或PPO。
🖼️ 关键图片
📊 实验亮点
实验结果表明,iVGR在多个细粒度视觉推理基准测试中显著优于现有基线。例如,在某个基准测试中,iVGR的性能比最佳基线提高了超过5%。此外,iVGR还保持了支持工具辅助推理工作流程的灵活性,这意味着它可以与其他工具集成,以进一步提高推理的准确性和效率。
🎯 应用场景
iVGR具有广泛的应用前景,例如在智能问答、图像理解、视觉导航等领域。它可以应用于需要细粒度视觉感知的任务,例如识别图像中的特定对象或属性。此外,iVGR还可以用于开发更高效、更鲁棒的多模态大语言模型,从而提高人工智能系统的整体性能。
📄 摘要(原文)
While visually grounded Chain-of-Thought (CoT) has emerged as a promising paradigm to enhance fine-grained perception in multimodal large language models (MLLMs), its efficacy during the inference phase remains underexplored. In this work, we empirically find that mandating explicit object boxes in visually grounded CoT during inference often degrades performance compared to standard textual CoT, which reasons without explicit visual grounding. We hypothesize that the visual localization capability can be internalized into the textual CoT and that the mandatory explicit grounding introduces unnecessary interference with the model's primary objective of answer prediction. To address this problem, we propose Internalizing Visually Grounded Reasoning (\textbf{iVGR}), a novel reinforcement learning framework that transfers localization capabilities into the textual reasoning process. We employ a dual-stream training strategy, where a textual stream is aligned with a high-quality visually grounded stream via a proposed consistency reward, enabling the model to localize accurately without explicit grounding during inference. Extensive experiments demonstrate that our method significantly outperforms existing baselines on fine-grained benchmarks, while maintaining the flexibility to support tool-assisted inference workflows.