WorldMAP: Bootstrapping Vision-Language Navigation Trajectory Prediction with Generative World Models

📄 arXiv: 2604.07957v1 📥 PDF

作者: Hongjin Chen, Shangyun Jiang, Tonghua Su, Chen Gao, Xinlei Chen, Yong Li, Zhibo Chen

分类: cs.AI, cs.CV, cs.RO

发布日期: 2026-04-09


💡 一句话要点

WorldMAP:利用生成式世界模型引导视觉-语言导航轨迹预测

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 视觉语言导航 生成式世界模型 轨迹预测 师生学习 具身智能

📋 核心要点

  1. 现有视觉-语言导航方法依赖单视角预测,轨迹不稳定;世界模型虽能生成未来视图,但缺乏与导航任务的直接关联。
  2. WorldMAP框架利用世界模型生成未来场景,构建语义空间记忆,并通过规划生成伪标签,指导轨迹预测。
  3. 实验表明,WorldMAP在Target-Bench上显著提升了轨迹预测精度,ADE降低18%,FDE降低42.1%,性能超越现有方法。

📝 摘要(中文)

视觉-语言模型(VLMs)和生成式世界模型为具身导航开辟了新的机遇。VLMs越来越多地被用作直接规划器或轨迹预测器,而世界模型通过想象未来视图来支持前瞻性推理。然而,从单个自我中心观察预测可靠的轨迹仍然具有挑战性。当前的VLMs通常生成不稳定的轨迹,而世界模型虽然能够合成合理的未来,但不能直接提供导航学习所需的有根据的信号。这就提出了一个核心问题:如何将生成的未来转化为有根据的轨迹预测的监督信号?我们提出了WorldMAP,一个师生框架,将世界模型生成的未来转化为持久的语义-空间结构和规划导出的监督。它的世界模型驱动的教师从生成的视频中构建语义-空间记忆,确定任务相关的目标和障碍,并通过显式规划生成轨迹伪标签。然后训练一个具有多假设轨迹头的轻量级学生,直接从视觉-语言输入预测导航轨迹。在Target-Bench上,WorldMAP在比较方法中实现了最佳的ADE和FDE,相对于最佳竞争基线,ADE降低了18.0%,FDE降低了42.1%,同时将一个小型开源VLM提升到与专有模型竞争的DTW性能。更广泛地说,结果表明,在具身导航中,世界模型的价值可能不在于提供可直接用于行动的想象证据,而在于为导航学习合成结构化的监督。

🔬 方法详解

问题定义:论文旨在解决视觉-语言导航中,如何利用生成式世界模型提升轨迹预测的准确性和稳定性的问题。现有方法要么依赖不稳定的单视角预测,要么无法将世界模型生成的未来信息有效转化为导航学习的监督信号。

核心思路:论文的核心思路是将世界模型生成的未来场景转化为结构化的语义-空间记忆,并从中提取规划导出的监督信号,用于训练轨迹预测模型。通过这种方式,世界模型不再直接提供动作,而是提供学习导航策略的有效监督。

技术框架:WorldMAP采用师生框架。教师网络由世界模型驱动,负责生成未来视频,构建语义-空间记忆,并进行显式规划,生成轨迹伪标签。学生网络是一个轻量级的轨迹预测模型,以视觉-语言输入为条件,预测导航轨迹。学生网络通过学习教师网络生成的伪标签进行训练。

关键创新:该方法最重要的创新点在于将生成式世界模型与轨迹预测任务解耦,利用世界模型生成结构化的监督信号,而不是直接生成动作。这种解耦使得世界模型可以专注于生成高质量的未来场景,而轨迹预测模型可以专注于学习有效的导航策略。

关键设计:关键设计包括:1) 使用世界模型生成未来视频;2) 从未来视频中提取语义-空间特征,构建语义-空间记忆;3) 基于语义-空间记忆进行显式规划,生成轨迹伪标签;4) 使用多假设轨迹头,提高轨迹预测的多样性;5) 使用ADE和FDE作为评价指标,衡量轨迹预测的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

WorldMAP在Target-Bench数据集上取得了显著的性能提升,ADE降低了18.0%,FDE降低了42.1%,超越了所有对比方法。此外,该方法还将一个小型开源VLM提升到了与专有模型竞争的DTW性能水平,证明了其有效性和泛化能力。实验结果表明,利用世界模型生成结构化监督信号是提升视觉-语言导航性能的有效途径。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实等领域。通过利用生成式世界模型,可以提升机器人在复杂环境中的导航能力,使其能够更好地理解环境、预测未来,并规划出更安全、更高效的行动轨迹。此外,该方法还可以用于训练更鲁棒的导航模型,使其能够适应不同的环境和任务。

📄 摘要(原文)

Vision-language models (VLMs) and generative world models are opening new opportunities for embodied navigation. VLMs are increasingly used as direct planners or trajectory predictors, while world models support look-ahead reasoning by imagining future views. Yet predicting a reliable trajectory from a single egocentric observation remains challenging. Current VLMs often generate unstable trajectories, and world models, though able to synthesize plausible futures, do not directly provide the grounded signals needed for navigation learning. This raises a central question: how can generated futures be turned into supervision for grounded trajectory prediction? We present WorldMAP, a teacher--student framework that converts world-model-generated futures into persistent semantic-spatial structure and planning-derived supervision. Its world-model-driven teacher builds semantic-spatial memory from generated videos, grounds task-relevant targets and obstacles, and produces trajectory pseudo-labels through explicit planning. A lightweight student with a multi-hypothesis trajectory head is then trained to predict navigation trajectories directly from vision-language inputs. On Target-Bench, WorldMAP achieves the best ADE and FDE among compared methods, reducing ADE by 18.0% and FDE by 42.1% relative to the best competing baseline, while lifting a small open-source VLM to DTW performance competitive with proprietary models. More broadly, the results suggest that, in embodied navigation, the value of world models may lie less in supplying action-ready imagined evidence than in synthesizing structured supervision for navigation learning.