Beyond Dense Futures: World Models as Structured Planners for Robotic Manipulation

📄 arXiv: 2603.12553v1 📥 PDF

作者: Minghao Jin, Mozheng Liao, Mingfei Han, Zhihui Li, Xiaojun Chang

分类: cs.RO, cs.CV

发布日期: 2026-03-13


💡 一句话要点

StructVLA:通过结构化规划提升机器人操作的世界模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 世界模型 结构化规划 视觉语言动作 长时程任务

📋 核心要点

  1. 基于世界模型的视觉-语言-动作(VLA)架构在机器人操作中面临长时程规划漂移问题,源于密集未来预测的视觉冗余和误差累积。
  2. StructVLA通过预测稀疏的、具有物理意义的结构化帧,将生成式世界模型转化为显式结构化规划器,从而实现更可靠的控制。
  3. 实验表明,StructVLA在模拟和真实世界环境中均表现出强大的任务完成能力和泛化能力,尤其是在长时程任务中。

📝 摘要(中文)

本文提出StructVLA,一种将生成式世界模型重构为显式结构化规划器的框架,以实现可靠的机器人控制。与密集未来预测或语义目标不同,StructVLA预测稀疏的、具有物理意义的结构化帧,这些帧源于内在运动学线索(如夹爪转换和运动学转折点),捕捉与任务进度紧密相关的时空里程碑。该方法通过两阶段训练范式实现,使用统一的离散token词汇表:首先训练世界模型预测结构化帧,然后优化模型将结构化预测映射到低级动作。实验表明,StructVLA在SimplerEnv-WidowX上实现了75.0%的平均成功率,在LIBERO上实现了94.8%的平均成功率。真实世界的部署进一步证明了其可靠的任务完成能力和在基本抓取放置和复杂长时程任务中的鲁棒泛化能力。

🔬 方法详解

问题定义:现有基于世界模型的VLA架构在机器人操作中,依赖于密集未来预测,导致视觉冗余和误差累积,从而引起长时程规划漂移。而稀疏方法通常使用高层语义子任务或隐式潜在状态表示视觉预测,缺乏明确的运动学基础,削弱了规划和低级执行之间的一致性。

核心思路:StructVLA的核心思路是将世界模型重构为一个显式的结构化规划器,通过预测稀疏的、具有物理意义的结构化帧来指导机器人操作。这些结构化帧捕捉了与任务进度紧密相关的时空里程碑,从而提供清晰的物理指导,并桥接视觉规划和运动控制。

技术框架:StructVLA采用两阶段训练范式。第一阶段,世界模型被训练以预测结构化帧。这些帧是从内在运动学线索(例如,夹爪转换和运动学转折点)中提取的。第二阶段,优化世界模型,将结构化预测映射到低级动作。整个框架使用统一的离散token词汇表,简化了训练过程。

关键创新:StructVLA的关键创新在于使用结构化帧来表示视觉预测,而不是密集像素或高层语义目标。这些结构化帧具有明确的物理意义,能够更好地与低级运动控制对齐,从而减少规划漂移并提高任务成功率。与隐式潜在状态相比,显式的结构化表示更易于解释和调试。

关键设计:StructVLA的关键设计包括:1) 结构化帧的定义,基于内在运动学线索;2) 两阶段训练范式,分别优化结构化帧预测和动作映射;3) 统一的离散token词汇表,简化训练过程。具体的网络结构和损失函数细节在论文中未详细描述,属于未知信息。

📊 实验亮点

StructVLA在SimplerEnv-WidowX上实现了75.0%的平均成功率,在LIBERO上实现了94.8%的平均成功率。真实世界的部署进一步验证了其可靠的任务完成能力和在基本抓取放置和复杂长时程任务中的鲁棒泛化能力。这些结果表明,StructVLA显著优于现有的基于世界模型的VLA架构。

🎯 应用场景

StructVLA具有广泛的应用前景,可应用于各种机器人操作任务,例如工业自动化、家庭服务机器人、医疗机器人等。该方法能够提高机器人在复杂环境中的操作能力和鲁棒性,尤其是在长时程任务中,具有重要的实际应用价值和未来发展潜力。

📄 摘要(原文)

Recent world-model-based Vision-Language-Action (VLA) architectures have improved robotic manipulation through predictive visual foresight. However, dense future prediction introduces visual redundancy and accumulates errors, causing long-horizon plan drift. Meanwhile, recent sparse methods typically represent visual foresight using high-level semantic subtasks or implicit latent states. These representations often lack explicit kinematic grounding, weakening the alignment between planning and low-level execution. To address this, we propose StructVLA, which reformulates a generative world model into an explicit structured planner for reliable control. Instead of dense rollouts or semantic goals, StructVLA predicts sparse, physically meaningful structured frames. Derived from intrinsic kinematic cues (e.g., gripper transitions and kinematic turning points), these frames capture spatiotemporal milestones closely aligned with task progress. We implement this approach through a two-stage training paradigm with a unified discrete token vocabulary: the world model is first trained to predict structured frames and subsequently optimized to map the structured foresight into low-level actions. This approach provides clear physical guidance and bridges visual planning and motion control. In our experiments, StructVLA achieves strong average success rates of 75.0% on SimplerEnv-WidowX and 94.8% on LIBERO. Real-world deployments further demonstrate reliable task completion and robust generalization across both basic pick-and-place and complex long-horizon tasks.