Scaling World Model for Hierarchical Manipulation Policies

📄 arXiv: 2602.10983v1 📥 PDF

作者: Qian Long, Yueze Wang, Jiaxi Song, Junbo Zhang, Peiyan Li, Wenxuan Wang, Yuqi Wang, Haoyang Li, Shaoxuan Xie, Guocai Yao, Hanbo Zhang, Xinlong Wang, Zhongyuan Wang, Xuguang Lan, Huaping Liu, Xinghang Li

分类: cs.RO

发布日期: 2026-02-11


💡 一句话要点

提出VISTA-WM框架,利用世界模型提升机器人操作策略的泛化性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 世界模型 视觉-语言-动作模型 分层策略 泛化能力

📋 核心要点

  1. VLA模型在机器人操作中泛化性不足,尤其是在OOD场景和有限真实数据下。
  2. VISTA-WM框架利用世界模型进行高层规划,生成视觉子目标,指导低层VLA策略执行。
  3. 实验表明,VISTA-WM显著提升了VLA模型在OOD场景下的性能,最高提升达69%。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在通用机器人操作方面展现出潜力,但在分布外(OOD)场景中表现脆弱,尤其是在真实机器人数据有限的情况下。为了解决泛化瓶颈,我们引入了一个分层视觉-语言-动作框架VISTA-WM,它利用大规模预训练世界模型的泛化能力来实现鲁棒和通用的视觉子目标任务分解(VISTA)。我们的分层框架VISTA-WM由一个世界模型作为高层规划器和一个VLA作为低层执行器组成。高层世界模型首先将操作任务分解为带有目标图像的子任务序列,低层策略遵循文本和视觉指导来生成动作序列。与原始文本目标规范相比,这些合成的目标图像为低层策略提供了视觉和物理上更具体的细节,使其能够在未见过的物体和新场景中泛化。我们在大规模分布外场景中验证了视觉目标合成和我们的分层VLA策略,在世界模型生成的指导下,相同结构的VLA在新场景中的性能可以从14%提高到69%。结果表明,我们的方法明显优于之前的基线,尤其是在分布外场景中。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型在机器人操作任务中,尤其是在分布外(OOD)场景下,泛化能力较差。主要痛点在于,当面对未见过的物体和环境时,VLA模型难以有效分解任务并生成可靠的动作序列。此外,真实机器人数据的获取成本高昂,限制了VLA模型的训练和泛化能力。

核心思路:论文的核心思路是利用大规模预训练的世界模型(World Model)来提升VLA模型的泛化能力。具体而言,将操作任务分解为一系列视觉子目标,并利用世界模型生成这些子目标的图像。这些图像为低层VLA策略提供了更具体、更直观的视觉指导,从而使其能够更好地理解任务并生成相应的动作序列。这种分层结构的设计旨在利用世界模型的泛化能力来弥补VLA模型在OOD场景下的不足。

技术框架:VISTA-WM框架采用分层结构,包含两个主要模块:高层规划器(世界模型)和低层执行器(VLA策略)。首先,高层世界模型接收任务描述(例如,文本指令)并将其分解为一系列视觉子目标,每个子目标用目标图像表示。然后,低层VLA策略接收文本指令和相应的目标图像,并生成一系列动作序列以达到该子目标。整个过程迭代进行,直到完成整个操作任务。

关键创新:该论文的关键创新在于将世界模型引入到机器人操作任务中,并将其作为高层规划器来生成视觉子目标。与直接使用文本指令指导VLA策略相比,视觉子目标提供了更丰富、更具体的环境信息,从而显著提升了VLA模型在OOD场景下的泛化能力。此外,该框架的分层结构使得可以独立地训练和优化高层世界模型和低层VLA策略,从而提高了训练效率和灵活性。

关键设计:世界模型采用大规模预训练模型,例如扩散模型,以生成高质量的视觉子目标图像。VLA策略采用Transformer架构,接收文本指令和目标图像作为输入,并输出动作序列。损失函数包括动作预测损失和目标达成损失,以确保生成的动作能够有效地达到目标。此外,论文还探索了不同的视觉子目标表示方法,例如使用关键点或分割掩码来表示目标物体的位置和形状。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VISTA-WM框架在OOD场景下的性能显著优于之前的基线方法。具体而言,在相同结构的VLA模型下,通过使用世界模型生成的视觉子目标指导,VLA模型在新场景中的成功率从14%提高到69%。这表明VISTA-WM框架能够有效地提升VLA模型的泛化能力,使其能够在更广泛的场景中执行复杂的机器人操作任务。

🎯 应用场景

该研究成果可应用于各种机器人操作任务,例如家庭服务机器人、工业自动化机器人和医疗机器人等。通过提升机器人在复杂和未知环境中的操作能力,可以实现更智能、更自主的机器人系统,从而提高生产效率和服务质量。未来,该方法还可以扩展到其他领域,例如自动驾驶和虚拟现实等。

📄 摘要(原文)

Vision-Language-Action (VLA) models are promising for generalist robot manipulation but remain brittle in out-of-distribution (OOD) settings, especially with limited real-robot data. To resolve the generalization bottleneck, we introduce a hierarchical Vision-Language-Action framework \our{} that leverages the generalization of large-scale pre-trained world model for robust and generalizable VIsual Subgoal TAsk decomposition VISTA. Our hierarchical framework \our{} consists of a world model as the high-level planner and a VLA as the low-level executor. The high-level world model first divides manipulation tasks into subtask sequences with goal images, and the low-level policy follows the textual and visual guidance to generate action sequences. Compared to raw textual goal specification, these synthesized goal images provide visually and physically grounded details for low-level policies, making it feasible to generalize across unseen objects and novel scenarios. We validate both visual goal synthesis and our hierarchical VLA policies in massive out-of-distribution scenarios, and the performance of the same-structured VLA in novel scenarios could boost from 14% to 69% with the guidance generated by the world model. Results demonstrate that our method outperforms previous baselines with a clear margin, particularly in out-of-distribution scenarios. Project page: \href{https://vista-wm.github.io/}{https://vista-wm.github.io}