Grounded World Model for Semantically Generalizable Planning

📄 arXiv: 2604.11751v1 📥 PDF

作者: Quanyi Li, Lan Feng, Haonan Zhang, Wuyang Li, Letian Wang, Alexandre Alahi, Harold Soh

分类: cs.RO, cs.AI

发布日期: 2026-04-13


💡 一句话要点

提出Grounded World Model,用于语义可泛化的规划任务

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 世界模型 模型预测控制 视觉语言对齐 语义泛化 机器人规划

📋 核心要点

  1. 传统视觉运动MPC依赖目标图像,难以在新环境预先获取,且图像交互性弱。
  2. 论文提出Grounded World Model (GWM),在视觉-语言对齐空间学习,通过指令相似度评分动作。
  3. 在WISER基准测试中,GWM-MPC在未见过的视觉信号和指代表达式任务中,成功率达到87%。

📝 摘要(中文)

在模型预测控制(MPC)中,世界模型预测各种动作提议的未来结果,然后对其进行评分以指导最佳动作的选择。对于视觉运动MPC,评分函数是预测图像和目标图像之间的距离度量,该距离度量是在预训练的视觉编码器(如DINO和JEPA)的潜在空间中测量的。然而,在任务执行之前获得目标图像具有挑战性,尤其是在新环境中。此外,与自然语言相比,通过图像传达目标提供的交互性有限。在这项工作中,我们提出学习一个在视觉-语言对齐的潜在空间中的Grounded World Model(GWM)。因此,每个提出的动作都基于其未来结果与任务指令的接近程度进行评分,这通过嵌入的相似性反映出来。这种方法将视觉运动MPC转换为VLA,其在语义泛化方面超越了基于VLM的VLA。在我们提出的WISER基准测试中,GWM-MPC在测试集上实现了87%的成功率,该测试集包含288个具有未见视觉信号和指代表达式的任务,但仍然可以通过训练期间演示的动作来解决。相比之下,传统的VLA实现了平均22%的成功率,即使它们过度拟合训练集,成功率为90%。

🔬 方法详解

问题定义:现有视觉运动模型预测控制(MPC)方法,依赖于预先给定的目标图像来评估动作的优劣。然而,在新的、未知的环境中,获取目标图像本身就是一个难题。此外,使用图像作为目标输入,限制了与环境交互的灵活性,不如自然语言指令直观和通用。因此,如何使MPC能够理解自然语言指令,并根据指令在新的环境中进行规划,是一个重要的挑战。

核心思路:论文的核心思路是将视觉和语言信息对齐到一个共享的潜在空间中,从而使模型能够理解自然语言指令,并预测执行动作后的视觉结果。通过比较预测的视觉结果和指令在潜在空间中的嵌入,可以评估动作的优劣,并选择最佳动作。这种方法的关键在于学习一个能够将视觉和语言信息有效对齐的Grounded World Model (GWM)。

技术框架:GWM-MPC的整体框架包括以下几个主要模块:1) 视觉编码器:用于将输入的图像转换为潜在空间的表示。2) 语言编码器:用于将自然语言指令转换为潜在空间的表示。3) 世界模型:用于预测在给定当前状态和动作的情况下,未来的视觉状态。4) 评分函数:用于评估预测的未来状态与目标指令之间的相似度。5) 控制器:使用模型预测控制(MPC)算法,选择能够最大化评分函数的动作。

关键创新:论文的关键创新在于提出了Grounded World Model (GWM),它能够在视觉-语言对齐的潜在空间中学习世界模型。与传统的视觉运动MPC方法相比,GWM-MPC不需要预先给定的目标图像,而是可以直接根据自然语言指令进行规划。此外,GWM-MPC在语义泛化方面表现更好,能够处理未见过的视觉信号和指代表达式。

关键设计:GWM使用对比学习来对齐视觉和语言的嵌入空间。具体来说,模型通过最小化视觉状态和对应指令的嵌入之间的距离,同时最大化视觉状态和不对应指令的嵌入之间的距离来学习。世界模型使用Transformer架构,以预测给定当前状态和动作的未来视觉状态。评分函数使用余弦相似度来衡量预测的未来状态和目标指令之间的相似度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GWM-MPC在提出的WISER基准测试中,针对包含未见视觉信号和指代表达式的288个任务的测试集上,实现了87%的成功率。相比之下,传统的VLA方法平均成功率仅为22%,即使在训练集上过拟合,成功率也只有90%。这表明GWM-MPC在语义泛化方面具有显著优势。

🎯 应用场景

该研究成果可应用于机器人操作、自动驾驶、游戏AI等领域。通过理解自然语言指令,机器人可以在复杂环境中执行任务,例如家庭服务机器人、工业自动化机器人等。自动驾驶系统可以根据乘客的语音指令调整行驶路线和驾驶策略。游戏AI可以根据玩家的指令生成更智能、更具交互性的游戏体验。

📄 摘要(原文)

In Model Predictive Control (MPC), world models predict the future outcomes of various action proposals, which are then scored to guide the selection of the optimal action. For visuomotor MPC, the score function is a distance metric between a predicted image and a goal image, measured in the latent space of a pretrained vision encoder like DINO and JEPA. However, it is challenging to obtain the goal image in advance of the task execution, particularly in new environments. Additionally, conveying the goal through an image offers limited interactivity compared with natural language. In this work, we propose to learn a Grounded World Model (GWM) in a vision-language-aligned latent space. As a result, each proposed action is scored based on how close its future outcome is to the task instruction, reflected by the similarity of embeddings. This approach transforms the visuomotor MPC to a VLA that surpasses VLM-based VLAs in semantic generalization. On the proposed WISER benchmark, GWM-MPC achieves a 87% success rate on the test set comprising 288 tasks that feature unseen visual signals and referring expressions, yet remain solvable with motions demonstrated during training. In contrast, traditional VLAs achieve an average success rate of 22%, even though they overfit the training set with a 90% success rate.