How and What to Imagine? Visual Thinking in Unified Multimodal Models for Cross-View Spatial Reasoning
作者: Qian Yang, Ankur Sikarwar, Huy Le, Le Zhang, Zhuan Shi, Perouz Taslakian, Aishwarya Agrawal
分类: cs.CV
发布日期: 2026-05-26
备注: Preprint
💡 一句话要点
提出View Dropout与全景视觉思考,提升统一多模态模型跨视角空间推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 跨视角空间推理 视觉语言模型 统一多模态模型 View Dropout 全景视觉思考
📋 核心要点
- 现有视觉语言模型在跨视角空间推理中表现不佳,主要原因是模型侧重于语言推理而忽略了细粒度的几何信息。
- 论文提出View Dropout方法,强制模型利用中间的“思考图像”进行推理,避免仅依赖于原始输入视图。
- 实验表明,结合View Dropout的全景视觉思考方法在多个真实世界数据集上实现了最佳的领域外泛化性能。
📝 摘要(中文)
跨视角空间推理是视觉语言模型(VLM)的弱点,它们通常在语言层面推理,丢失了任务所需的细粒度几何信息。使用图像进行思考旨在通过生成中间思考图像来解决这个问题,但最近的研究表明,模型经常忽略这些轨迹中的视觉证据。因此,本文研究如何使视觉思考发挥作用,以及哪种视觉思考效果最佳。本文在统一多模态模型(UMM)中研究这些问题,UMM原生支持交错的图像-文本生成。针对如何发挥视觉思考作用,本文提出View Dropout (VDrop),这是一种训练时干预方法,它从答案跨度中隐藏一个输入视图的部分内容,同时保持它们对思考图像token可见。这鼓励模型在回答时使用思考图像,而不是仅依赖输入视图。一旦思考图像用于答案预测,本文研究哪种类型的视觉思考最有效。本文将其定义为可学习性-信息量权衡,并比较三种思考图像变体:俯视图、全景图和点匹配渲染。在合成场景上训练并在五个真实世界领域外基准上评估,带有VDrop的全景视觉思考是唯一既具有信息性又易于学习的配置,并且实现了最佳的领域外泛化。
🔬 方法详解
问题定义:论文旨在解决视觉语言模型在跨视角空间推理任务中的不足。现有方法,尤其是视觉语言模型,在处理这类问题时,往往过度依赖语言信息,而忽略了图像中蕴含的细粒度几何信息,导致推理精度下降。现有方法生成的中间“思考图像”往往没有被充分利用,模型仍然倾向于直接从原始输入视图进行推理。
核心思路:论文的核心思路是强制模型更多地利用中间的“思考图像”进行推理。通过引入View Dropout,在训练过程中随机屏蔽部分原始输入视图的信息,迫使模型依赖于“思考图像”来弥补缺失的信息,从而提升模型对“思考图像”的利用率。同时,论文还探索了不同类型的“思考图像”表示方法,并分析了它们在信息量和可学习性之间的权衡。
技术框架:论文采用统一多模态模型(UMM)作为基础框架,该框架支持图像和文本的交错生成。整体流程如下:首先,模型接收输入视图(例如,两张不同角度的图像)和问题描述;然后,模型生成中间的“思考图像”,该图像是对场景的一种新的视觉表示;最后,模型基于输入视图和“思考图像”生成答案。关键在于训练过程中应用View Dropout,随机屏蔽部分输入视图,并探索不同类型的“思考图像”(俯视图、全景图、点匹配渲染)。
关键创新:论文的关键创新在于View Dropout方法和对不同“思考图像”表示方法的分析。View Dropout是一种简单而有效的训练策略,它能够显著提升模型对中间“思考图像”的利用率。通过对比不同类型的“思考图像”,论文发现全景视觉思考在信息量和可学习性之间取得了最佳平衡,从而实现了更好的泛化性能。
关键设计:View Dropout的具体实现是在训练过程中,随机选择一个输入视图,并随机屏蔽该视图的部分区域。屏蔽的比例是一个超参数,需要根据具体任务进行调整。对于“思考图像”的生成,论文采用了三种不同的渲染方法:俯视图、全景图和点匹配渲染。全景图是通过将多个视角的图像拼接在一起生成的,能够提供更全面的场景信息。损失函数包括图像生成损失和答案预测损失,用于优化模型的图像生成能力和推理能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,结合View Dropout的全景视觉思考方法在五个真实世界领域外基准上取得了最佳性能。具体来说,该方法在跨视角空间推理任务中显著优于其他基线方法,证明了其有效性和泛化能力。全景视觉思考相比于俯视图和点匹配渲染,在信息量和可学习性之间取得了更好的平衡。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、三维重建、虚拟现实等领域。通过提升模型对多视角信息的理解和推理能力,可以使机器人在复杂环境中更好地感知和理解周围的世界,从而实现更智能的决策和行为。
📄 摘要(原文)
Cross-view spatial reasoning remains a weak spot for vision-language models (VLMs): they often reason in language and lose the fine-grained geometry needed for the task. Thinking with images aims to address this by generating an intermediate thinking image, but recent work shows that models often ignore the visual evidence in these traces. We therefore ask how to make visual thinking matter, and what kind of visual thinking works best. We study these questions in unified multimodal models (UMMs), which natively support interleaved image-text generation. For the first question, we propose View Dropout (VDrop), a training-time intervention that hides parts of one input view from the answer span while keeping them visible to the thinking-image tokens. This encourages the model to use the thinking image when answering, instead of relying only on the input views. Once the thinking image is used for answer prediction, we study which type of visual thinking is most effective. We frame this as a learnability-informativeness tradeoff and compare three thinking-image variants: top-down, panoramic, and point-matching renderings. Trained on synthetic scenes and evaluated on five real-world out-of-domain benchmarks, panoramic visual thinking with VDrop is the only configuration that is both informative and learnable, and it achieves the best out-of-domain generalization.