Learning When to Look: A Disentangled Curriculum for Strategic Perception in Multimodal Reasoning

📄 arXiv: 2512.17227v1 📥 PDF

作者: Siqi Yang, Zilve Gao, Haibo Qiu, Fanfan Liu, Peng Shi, Zhixiong Zeng, Qingmin Liao, Lin Ma

分类: cs.CV

发布日期: 2025-12-19

🔗 代码/项目: GITHUB


💡 一句话要点

提出解耦课程学习框架,解决多模态推理中视觉信息遗忘问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 视觉遗忘 解耦学习 强化学习 课程学习

📋 核心要点

  1. 现有MLLM在长链视觉推理中存在“视觉遗忘”问题,即推理越深入,视觉信息利用越少。
  2. 提出解耦课程学习框架,分别训练抽象推理能力和战略性视觉感知能力,避免过早耦合。
  3. 设计感知基础链式思考(PG-CoT)和关键感知奖励,提升模型在复杂推理任务中的性能。

📝 摘要(中文)

多模态大型语言模型(MLLMs)展现出巨大潜力,但在复杂的长链视觉推理任务中仍然脆弱。一个关键的失败模式是“视觉遗忘”,即模型随着推理的进行逐渐失去视觉基础,这种现象可以恰当地描述为“思考越长,看得越少”。我们认为这种失败源于当前的训练范式过早地纠缠了两种不同的认知技能:(1)抽象逻辑推理(“如何思考”)和(2)战略性视觉感知(“何时看”)。这造成了一个基础性的冷启动缺陷——削弱了抽象推理——以及一个战略性感知缺陷,因为模型缺乏何时感知的策略。在本文中,我们提出了一个新颖的基于课程的框架来解耦这些技能。首先,我们引入了一个解耦的监督微调(SFT)课程,该课程在文本数据上构建一个强大的抽象推理骨干,然后通过一种新颖的感知基础链式思考(PG-CoT)范式将其锚定到视觉。其次,我们通过将时间安排建模为一个强化学习问题来解决战略性感知缺陷。我们设计了一个关键感知奖励,通过将感知动作与认知不确定性的语言标记(例如,“等待”、“验证”)相结合来教导模型何时看,从而学习自主基础策略。我们的贡献包括对这两种缺陷的形式化以及开发一个有原则的两阶段框架来解决它们,从而将模型从启发式驱动的观察者转变为战略性的、有基础的推理者。

🔬 方法详解

问题定义:多模态大型语言模型在长链视觉推理任务中表现不佳,存在“视觉遗忘”现象。现有方法通常将抽象推理和视觉感知能力耦合训练,导致模型难以有效利用视觉信息进行深入推理,痛点在于模型缺乏何时应该关注视觉信息的策略。

核心思路:将抽象逻辑推理(“如何思考”)和战略性视觉感知(“何时看”)解耦,分别进行训练。首先通过文本数据训练抽象推理能力,然后通过视觉数据训练战略性感知能力。通过强化学习,让模型学习在推理过程中何时应该关注视觉信息。

技术框架:该框架包含两个主要阶段:1) 解耦的监督微调(SFT)课程:首先在纯文本数据上训练一个强大的抽象推理骨干网络。2) 强化学习阶段:通过关键感知奖励,训练模型学习何时应该关注视觉信息。整体流程是从文本到视觉,逐步提升模型的多模态推理能力。

关键创新:核心创新在于将抽象推理和视觉感知解耦,并使用强化学习来训练模型的战略性感知能力。与现有方法不同,该方法不是简单地将视觉信息融入到推理过程中,而是让模型学习何时应该主动地去“看”,从而更有效地利用视觉信息。

关键设计:感知基础链式思考(PG-CoT)范式用于将视觉信息锚定到抽象推理骨干网络。关键感知奖励的设计将感知动作与认知不确定性的语言标记(例如,“等待”、“验证”)相结合,从而引导模型学习何时应该关注视觉信息。强化学习算法的具体选择和参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了一个两阶段的解耦训练框架,有效解决了多模态推理中的视觉遗忘问题。通过感知基础链式思考(PG-CoT)和关键感知奖励,模型在复杂推理任务中取得了显著的性能提升。具体的性能数据和对比基线未知。

🎯 应用场景

该研究成果可应用于需要复杂视觉推理的场景,例如智能客服、自动驾驶、医疗诊断等。通过提升模型在长链推理中的视觉信息利用能力,可以提高这些应用场景的智能化水平和决策准确性。未来,该方法有望扩展到更多多模态任务中,例如视频理解、机器人导航等。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) demonstrate significant potential but remain brittle in complex, long-chain visual reasoning tasks. A critical failure mode is "visual forgetting", where models progressively lose visual grounding as reasoning extends, a phenomenon aptly described as "think longer, see less". We posit this failure stems from current training paradigms prematurely entangling two distinct cognitive skills: (1) abstract logical reasoning "how-to-think") and (2) strategic visual perception ("when-to-look"). This creates a foundational cold-start deficiency -- weakening abstract reasoning -- and a strategic perception deficit, as models lack a policy for when to perceive. In this paper, we propose a novel curriculum-based framework to disentangle these skills. First, we introduce a disentangled Supervised Fine-Tuning (SFT) curriculum that builds a robust abstract reasoning backbone on text-only data before anchoring it to vision with a novel Perception-Grounded Chain-of-Thought (PG-CoT) paradigm. Second, we resolve the strategic perception deficit by formulating timing as a reinforcement learning problem. We design a Pivotal Perception Reward that teaches the model when to look by coupling perceptual actions to linguistic markers of cognitive uncertainty (e.g., "wait", "verify"), thereby learning an autonomous grounding policy. Our contributions include the formalization of these two deficiencies and the development of a principled, two-stage framework to address them, transforming the model from a heuristic-driven observer to a strategic, grounded reasoner. \textbf{Code}: \url{https://github.com/gaozilve-max/learning-when-to-look}.