AtomVLA: Scalable Post-Training for Robotic Manipulation via Predictive Latent World Models

📄 arXiv: 2603.08519v1 📥 PDF

作者: Xiaoquan Sun, Zetian Xu, Chen Cao, Zonghe Liu, Yihan Sun, Jingrui Pang, Ruijian Zhang, Zhen Yang, Kang Pang, Dingxin He, Mingqi Yuan, Jiayu Chen

分类: cs.RO

发布日期: 2026-03-09


💡 一句话要点

AtomVLA:通过预测潜在世界模型实现机器人操作的可扩展后训练

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视觉语言动作模型 预测世界模型 离线后训练 子任务分解

📋 核心要点

  1. 现有VLA模型在长时程机器人操作中,由于缺乏中间指令指导,容易产生误差累积,导致性能下降。
  2. AtomVLA通过LLM将高层任务分解为原子子任务,并利用预测世界模型在潜在空间中评估动作,从而缓解误差累积。
  3. 实验表明,AtomVLA在LIBERO和LIBERO-PRO基准测试中显著提升了成功率,并在真实机器人平台上验证了其有效性。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在通用机器人操作方面展现出卓越潜力。VLA模型中复杂多步行为的执行可以通过鲁棒的指令对齐来改进,这是有效控制的关键组成部分。然而,当前的范式主要依赖于监督微调期间的粗略、高层任务指令。这种指令对齐的差距使得模型缺乏明确的中间指导,导致长时程任务中严重的误差累积。因此,弥合这一指令差距并为VLA模型提供可扩展的后训练迫在眉睫。为了解决这个问题,我们提出了AtomVLA,这是第一个与可扩展的离线后训练流程集成的子任务感知VLA框架。我们的框架利用大型语言模型将高层演示分解为细粒度的原子子任务。这种方法利用预训练的预测世界模型来评估潜在空间中候选动作块与子任务目标的一致性,从而减轻误差累积,同时显著提高长时程鲁棒性。此外,这种方法实现了高效的群体相对策略优化,而无需在物理机器人上进行在线rollout所带来的高昂成本。广泛的模拟验证了我们的AtomVLA在扰动下保持强大的鲁棒性。在针对基本基线模型进行评估时,它在LIBERO基准测试中实现了97.0%的平均成功率,在LIBERO-PRO基准测试中实现了48.0%的平均成功率。最后,在使用Galaxea R1 Lite平台进行的真实世界实验证实了其在各种任务中的广泛适用性,尤其是长时程任务。所有数据集、检查点和代码将在该工作被接受后公开发布,以供未来研究。

🔬 方法详解

问题定义:现有VLA模型在处理复杂的多步机器人操作任务时,依赖于粗粒度的高层指令进行训练,缺乏对中间步骤的明确指导。这导致模型在长时程任务中容易出现误差累积,最终影响任务的成功率。现有方法难以有效利用离线数据进行可扩展的后训练,并且在线训练成本高昂。

核心思路:AtomVLA的核心思路是将高层任务分解为一系列细粒度的原子子任务,并利用预训练的预测世界模型在潜在空间中评估动作序列与子任务目标的一致性。通过这种方式,模型可以学习到更鲁棒的中间步骤策略,从而减少误差累积,提高长时程任务的成功率。

技术框架:AtomVLA框架包含以下主要模块:1) 大型语言模型(LLM)用于将高层任务指令分解为原子子任务序列。2) 预训练的预测世界模型,用于将观察和动作编码到潜在空间,并预测未来的状态。3) 动作块评分模块,用于评估候选动作块与子任务目标在潜在空间中的一致性。4) 策略优化模块,利用群体相对策略优化(Group Relative Policy Optimization)算法,在离线数据上进行策略优化。

关键创新:AtomVLA的关键创新在于将子任务感知的学习与预测世界模型相结合,实现了一种可扩展的离线后训练方法。与现有方法相比,AtomVLA能够更有效地利用离线数据,学习到更鲁棒的中间步骤策略,并且避免了在线训练的高昂成本。通过在潜在空间中进行动作评估,AtomVLA能够更好地泛化到新的任务和环境。

关键设计:AtomVLA使用预训练的Transformer模型作为LLM,用于任务分解。预测世界模型采用变分自编码器(VAE)结构,将观察和动作编码到潜在空间。动作块评分模块使用余弦相似度来衡量候选动作块与子任务目标在潜在空间中的一致性。策略优化模块使用Group Relative Policy Optimization算法,该算法通过比较不同策略的性能来更新策略参数。

📊 实验亮点

AtomVLA在LIBERO基准测试中取得了97.0%的平均成功率,在LIBERO-PRO基准测试中取得了48.0%的平均成功率,显著优于现有基线模型。真实世界实验表明,AtomVLA在Galaxea R1 Lite机器人平台上能够成功完成各种长时程任务,验证了其在实际应用中的有效性。

🎯 应用场景

AtomVLA具有广泛的应用前景,可应用于各种需要复杂多步操作的机器人任务,例如家庭服务机器人、工业自动化机器人和医疗机器人。该方法可以提高机器人在复杂环境中的鲁棒性和泛化能力,使其能够更好地适应不同的任务需求。未来,AtomVLA可以进一步扩展到多机器人协作和人机协作等领域。

📄 摘要(原文)

Vision-Language-Action (VLA) models demonstrate remarkable potential for generalizable robotic manipulation. The execution of complex multi-step behaviors in VLA models can be improved by robust instruction grounding, a critical component for effective control. However, current paradigms predominantly rely on coarse, high-level task instructions during supervised fine-tuning. This instruction grounding gap leaves models without explicit intermediate guidance, leading to severe compounding errors in long-horizon tasks. Therefore, bridging this instruction gap and providing scalable post-training for VLA models is urgent. To tackle this problem, we propose \method, the first subtask-aware VLA framework integrated with a scalable offline post-training pipeline. Our framework leverages a large language model to decompose high-level demonstrations into fine-grained atomic subtasks. This approach utilizes a pretrained predictive world model to score candidate action chunks against subtask goals in the latent space, mitigating error accumulation while significantly improving long-horizon robustness. Furthermore, this approach enables highly efficient Group Relative Policy Optimization without the prohibitive expenses associated with online rollouts on physical robots. Extensive simulations validate that our AtomVLA maintains strong robustness under perturbations. When evaluated against fundamental baseline models, it achieves an average success rate of 97.0\% on the LIBERO benchmark and 48.0\% on the LIBERO-PRO benchmark. Finally, experiments conducted in the real world using the Galaxea R1 Lite platform confirm its broad applicability across diverse tasks, especially long-horizon tasks. All datasets, checkpoints, and code will be released to the public domain following the acceptance of this work for future research.