World2VLM: Distilling World Model Imagination into VLMs for Dynamic Spatial Reasoning
作者: Wanyue Zhang, Wenxiang Wu, Wang Xu, Jiaxin Luo, Helu Zhi, Yibin Huang, Shuo Ren, Zitao Liu, Jiajun Zhang
分类: cs.CV
发布日期: 2026-04-29
备注: The code is available at https://github.com/WanyueZhang-ai/World2VLM. The dataset is available at https://huggingface.co/datasets/WanyueZhang/World2VLM
💡 一句话要点
World2VLM:将世界模型的想象能力蒸馏到VLM中,用于动态空间推理
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 视觉语言模型 世界模型 空间推理 蒸馏学习 动态场景理解
📋 核心要点
- 现有VLM在动态空间推理方面存在不足,难以模拟自我中心运动下的场景演变。
- World2VLM通过将世界模型的空间想象能力蒸馏到VLM中,实现高效的动态空间推理。
- 实验表明,World2VLM在多个空间推理基准上优于现有方法,且无需昂贵的推理时生成。
📝 摘要(中文)
视觉-语言模型(VLM)在静态视觉理解方面表现出色,但在需要想象场景在自我中心运动下如何演变的动态空间推理方面仍然存在困难。现有方法要么通过合成数据扩展空间监督,要么在推理时将VLM与世界模型耦合。然而,前者通常缺乏对运动条件下的状态转移的显式建模,而后者会产生巨大的计算开销。本文提出了World2VLM,一个将生成式世界模型的空间想象能力蒸馏到视觉-语言模型中的训练框架。给定初始观察和参数化的相机轨迹,我们使用视图一致的世界模型来合成几何对齐的未来视图,并为前向(动作到结果)和逆向(结果到动作)空间推理导出结构化监督。我们使用此pipeline生成的紧凑数据集,通过两阶段的训练方法对VLM进行后训练,并在多个空间推理基准上对其进行评估。World2VLM在包括SAT-Real、SAT-Synthesized、VSI-Bench和MindCube在内的各种基准测试中,都实现了优于基线模型的一致改进。它也优于测试时世界模型耦合的方法,同时消除了昂贵的推理时生成需求。我们的结果表明,世界模型不仅可以作为推理时工具,还可以作为有效的训练时教师,使VLM能够以可扩展且高效的方式内化空间想象。
🔬 方法详解
问题定义:现有的视觉-语言模型(VLM)在处理动态空间推理任务时面临挑战,尤其是在需要预测自我中心运动后场景变化的情况下。现有方法要么依赖于大规模合成数据进行监督学习,但缺乏对运动状态转移的显式建模;要么在推理时与世界模型耦合,虽然能提升性能,但计算成本很高。因此,如何让VLM高效地学习和利用空间想象能力是一个亟待解决的问题。
核心思路:World2VLM的核心思想是将生成式世界模型作为教师,指导VLM学习空间想象能力。通过世界模型生成与相机轨迹对应的未来视图,并利用这些视图为VLM提供结构化的监督信号,包括前向(动作到结果)和逆向(结果到动作)空间推理。这种方法避免了大规模合成数据的需求,也无需在推理时依赖世界模型,从而提高了效率。
技术框架:World2VLM的整体框架包含以下几个主要步骤:1) 使用初始观察和参数化的相机轨迹,通过世界模型生成未来视图;2) 基于生成的未来视图,构建前向和逆向空间推理的监督信号;3) 使用这些监督信号,对VLM进行两阶段的后训练。第一阶段侧重于学习动作到结果的映射,第二阶段侧重于学习结果到动作的映射。
关键创新:World2VLM的关键创新在于将世界模型从推理时的工具转变为训练时的教师。通过蒸馏世界模型的空间想象能力,使得VLM能够内化这种能力,从而在动态空间推理任务中表现更好。这种方法不仅提高了效率,也使得VLM能够更好地泛化到不同的场景。
关键设计:World2VLM的关键设计包括:1) 使用视图一致的世界模型生成几何对齐的未来视图,保证监督信号的质量;2) 设计了前向和逆向空间推理的损失函数,引导VLM学习动作和结果之间的关系;3) 采用两阶段的训练方法,分别侧重于学习动作到结果和结果到动作的映射,提高训练效率和性能。
🖼️ 关键图片
📊 实验亮点
World2VLM在SAT-Real、SAT-Synthesized、VSI-Bench和MindCube等多个空间推理基准测试中,都实现了优于基线模型的一致改进。例如,在SAT-Real数据集上,World2VLM相比基线模型取得了显著的性能提升。更重要的是,World2VLM在性能上优于测试时与世界模型耦合的方法,同时消除了昂贵的推理时生成需求,实现了效率和性能的双重提升。
🎯 应用场景
World2VLM的研究成果可应用于机器人导航、自动驾驶、虚拟现实等领域。通过提升VLM的动态空间推理能力,可以使机器人更好地理解和预测周围环境的变化,从而实现更智能的导航和决策。在自动驾驶领域,可以提高车辆对复杂交通场景的理解和预测能力,从而提高安全性。在虚拟现实领域,可以增强用户的沉浸感和交互性。
📄 摘要(原文)
Vision-language models (VLMs) have shown strong performance on static visual understanding, yet they still struggle with dynamic spatial reasoning that requires imagining how scenes evolve under egocentric motion. Recent efforts address this limitation either by scaling spatial supervision with synthetic data or by coupling VLMs with world models at inference time. However, the former often lacks explicit modeling of motion-conditioned state transitions, while the latter incurs substantial computational overhead. In this work, we propose World2VLM, a training framework that distills spatial imagination from a generative world model into a vision-language model. Given an initial observation and a parameterized camera trajectory, we use a view-consistent world model to synthesize geometrically aligned future views and derive structured supervision for both forward (action-to-outcome) and inverse (outcome-to-action) spatial reasoning. We post-train the VLM with a two-stage recipe on a compact dataset generated by this pipeline and evaluate it on multiple spatial reasoning benchmarks. World2VLM delivers consistent improvements over the base model across diverse benchmarks, including SAT-Real, SAT-Synthesized, VSI-Bench, and MindCube. It also outperforms the test-time world-model-coupled methods while eliminating the need for expensive inference-time generation. Our results suggest that world models can serve not only as inference-time tools, but also as effective training-time teachers, enabling VLMs to internalize spatial imagination in a scalable and efficient manner.