MindJourney: Test-Time Scaling with World Models for Spatial Reasoning

作者: Yuncong Yang, Jiageng Liu, Zheyuan Zhang, Siyuan Zhou, Reuben Tan, Jianwei Yang, Yilun Du, Chuang Gan

分类: cs.CV, cs.AI, cs.RO

发布日期: 2025-07-16 (更新: 2025-11-01)

备注: Project Page: https://umass-embodied-agi.github.io/MindJourney

💡 一句话要点

MindJourney：利用世界模型进行测试时缩放，提升视觉语言模型在空间推理任务上的性能。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱六：视频提取与匹配 (Video Extraction)

关键词: 空间推理 视觉语言模型 世界模型 测试时缩放 视频扩散模型

📋 核心要点

现有视觉语言模型(VLMs)在3D空间推理方面存在不足，无法有效处理具身任务中对3D动态的理解和预测。
MindJourney通过将VLM与可控世界模型结合，在测试时进行缩放，使VLM能够模拟和推理3D场景的动态变化。
实验表明，MindJourney在SAT空间推理基准测试中取得了显著的性能提升，无需微调即可平均提升7.7%。

📝 摘要（中文）

空间推理在3D空间中至关重要，对于导航和操作等具身任务不可或缺。然而，最先进的视觉语言模型(VLMs)在预测自我运动后场景外观等简单任务中表现不佳，因为它们感知2D图像，缺乏3D动态的内部模型。因此，我们提出了MindJourney，一个测试时缩放框架，通过将VLM与基于视频扩散的可控世界模型相结合，赋予VLM这种缺失的能力。VLM迭代地勾勒出一个简洁的相机轨迹，而世界模型在每个步骤合成相应的视图。然后，VLM基于交互探索期间收集的多视图证据进行推理。在没有任何微调的情况下，我们的MindJourney在代表性的空间推理基准SAT上实现了平均超过7.7%的性能提升，表明将VLM与世界模型配对进行测试时缩放，为鲁棒的3D推理提供了一种简单、即插即用的途径。同时，我们的方法也优于通过强化学习训练的测试时推理VLM，这证明了我们利用世界模型进行测试时缩放的潜力。

🔬 方法详解

问题定义：现有视觉语言模型（VLMs）在处理3D空间推理任务时，由于缺乏对3D动态的内部建模能力，导致其在理解和预测场景变化方面表现不佳。尤其是在需要根据自我运动推断场景外观的任务中，VLMs的性能受到限制。现有方法难以有效地将2D图像信息转化为对3D空间结构的理解，从而影响了其在具身任务中的应用。

核心思路：MindJourney的核心思路是将VLMs与世界模型相结合，利用世界模型来弥补VLMs在3D动态建模方面的不足。通过让VLM与世界模型进行交互，VLM可以探索不同的视角，并利用世界模型生成相应的视图，从而获得更丰富的3D场景信息。这种方法允许VLM在测试时进行缩放，从而提高其空间推理能力。

技术框架：MindJourney的整体框架包含两个主要模块：视觉语言模型（VLM）和世界模型。VLM负责生成相机轨迹，即一系列的视角变化。世界模型则根据VLM生成的相机轨迹，合成相应的视图。VLM通过迭代地生成相机轨迹和利用世界模型合成视图，从而探索3D场景。最终，VLM基于收集到的多视图证据进行推理，完成空间推理任务。

关键创新：MindJourney的关键创新在于其测试时缩放框架，该框架允许VLM在不进行任何微调的情况下，通过与世界模型交互来提高其空间推理能力。这种方法避免了对VLM进行大量训练的需要，并且可以很容易地应用于不同的VLM和世界模型。此外，MindJourney还提出了一种新的相机轨迹生成方法，该方法可以有效地探索3D场景。

关键设计：MindJourney的关键设计包括：1) 使用视频扩散模型作为世界模型，以生成高质量的视图；2) 设计了一种迭代的相机轨迹生成方法，该方法允许VLM逐步探索3D场景；3) 使用多视图融合技术，将来自不同视角的证据整合起来，以提高推理的准确性。具体的参数设置和网络结构细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

MindJourney在SAT空间推理基准测试中取得了显著的性能提升，平均提升了7.7%。该方法无需对VLM进行任何微调，即可实现性能提升，表明其具有很强的通用性和易用性。此外，MindJourney的性能优于通过强化学习训练的测试时推理VLM，证明了其利用世界模型进行测试时缩放的有效性。

🎯 应用场景

MindJourney具有广泛的应用前景，可应用于机器人导航、虚拟现实、增强现实等领域。通过提高视觉语言模型在空间推理方面的能力，MindJourney可以使机器人更好地理解和操作周围环境，从而实现更智能的自主导航和物体操作。此外，MindJourney还可以用于生成逼真的虚拟环境，为用户提供更沉浸式的体验。

📄 摘要（原文）

Spatial reasoning in 3D space is central to human cognition and indispensable for embodied tasks such as navigation and manipulation. However, state-of-the-art vision-language models (VLMs) struggle frequently with tasks as simple as anticipating how a scene will look after an egocentric motion: they perceive 2D images but lack an internal model of 3D dynamics. We therefore propose MindJourney, a test-time scaling framework that grants a VLM with this missing capability by coupling it to a controllable world model based on video diffusion. The VLM iteratively sketches a concise camera trajectory, while the world model synthesizes the corresponding view at each step. The VLM then reasons over this multi-view evidence gathered during the interactive exploration. Without any fine-tuning, our MindJourney achieves over an average 7.7% performance boost on the representative spatial reasoning benchmark SAT, showing that pairing VLMs with world models for test-time scaling offers a simple, plug-and-play route to robust 3D reasoning. Meanwhile, our method also improves upon the test-time inference VLMs trained through reinforcement learning, which demonstrates the potential of our method that utilizes world models for test-time scaling.

MindJourney: Test-Time Scaling with World Models for Spatial Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理