Do World Action Models Generalize Better than VLAs? A Robustness Study

📄 arXiv: 2603.22078v1 📥 PDF

作者: Zhanguang Zhang, Zhiyuan Li, Behnam Rahmati, Rui Heng Yang, Yintao Ma, Amir Rasouli, Sajjad Pakdamansavoji, Yangzheng Wu, Lingfeng Zhang, Tongtong Cao, Feng Wen, Xingyue Quan, Yingxue Zhang

分类: cs.RO

发布日期: 2026-03-23


💡 一句话要点

对比研究世界行动模型与视觉-语言-行动模型在机器人任务中的泛化鲁棒性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人行动规划 世界模型 视觉-语言-行动模型 鲁棒性 泛化能力 视频预训练 环境扰动

📋 核心要点

  1. 现有视觉-语言-行动模型(VLA)在机器人任务中泛化能力有限,易受环境扰动影响,难以应对未见场景。
  2. 论文对比研究了VLA和世界行动模型(WAM),后者利用视频数据训练的世界模型预测未来状态,并解码为机器人行动。
  3. 实验结果表明,WAM在LIBERO-Plus和RoboTwin 2.0-Plus基准上表现出更强的鲁棒性,成功率显著提升。

📝 摘要(中文)

真实世界中的机器人行动规划极具挑战,它不仅需要理解当前环境状态,还需要预测环境如何响应行动。视觉-语言-行动(VLA)模型通过利用大规模视觉-语言模型和行动专家来生成机器人行动,在各种机器人任务中取得了显著成功。然而,它们的性能仍然受到训练数据范围的限制,对未见场景的泛化能力有限,并且容易受到各种上下文扰动的影响。最近,世界模型作为VLA的替代方案被重新审视。这些模型,被称为世界行动模型(WAM),建立在经过大量视频数据训练的世界模型之上,用于预测未来状态。经过少量调整,它们的潜在表示可以被解码为机器人行动。有人认为,它们显式的动态预测能力,加上从网络规模视频预训练中获得的时空先验,使WAM比VLA更有效地泛化。本文对最先进的VLA策略和最近发布的WAM进行了比较研究。我们在LIBERO-Plus和RoboTwin 2.0-Plus基准上,在各种视觉和语言扰动下评估了它们的性能。结果表明,WAM实现了强大的鲁棒性,LingBot-VA在RoboTwin 2.0-Plus上达到了74.2%的成功率,Cosmos-Policy在LIBERO-Plus上达到了82.2%的成功率。虽然像$π_{0.5}$这样的VLA可以在某些任务上实现相当的鲁棒性,但它们通常需要使用多样化的机器人数据集和不同的学习目标进行广泛的训练。部分结合基于视频的动态学习的混合方法表现出中等的鲁棒性,突出了视频先验如何整合的重要性。

🔬 方法详解

问题定义:论文旨在解决机器人行动规划中,现有视觉-语言-行动模型(VLA)泛化能力不足的问题。VLA模型依赖于大规模的视觉-语言数据进行训练,但在面对未见过的场景或环境扰动时,性能会显著下降。因此,如何提高机器人行动规划模型的鲁棒性和泛化能力是一个关键挑战。

核心思路:论文的核心思路是探索世界行动模型(WAM)作为VLA的替代方案。WAM基于世界模型,通过学习大量视频数据来预测未来状态,从而获得更强的时空先验知识。这种显式的动态预测能力使得WAM能够更好地理解环境变化,并生成更鲁棒的行动策略。

技术框架:论文采用对比研究的方法,评估了当前最先进的VLA策略和最近发布的WAM在LIBERO-Plus和RoboTwin 2.0-Plus基准上的性能。评估过程中,引入了各种视觉和语言扰动,以测试模型的鲁棒性。具体而言,论文比较了LingBot-VA和Cosmos-Policy等WAM模型,以及$π_{0.5}$等VLA模型。同时,还评估了部分结合视频动态学习的混合方法。

关键创新:论文的关键创新在于对WAM在机器人行动规划中的鲁棒性和泛化能力进行了系统性的评估。通过对比实验,论文验证了WAM在应对环境扰动和未见场景时,具有优于VLA的性能。此外,论文还强调了视频先验知识在提高模型鲁棒性中的重要作用。

关键设计:论文中,WAM模型利用大规模视频数据进行预训练,学习环境的动态变化规律。通过将潜在表示解码为机器人行动,WAM能够实现对未来状态的预测和规划。实验中,论文采用了LIBERO-Plus和RoboTwin 2.0-Plus等标准基准,并设计了多种视觉和语言扰动,以全面评估模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,世界行动模型(WAM)在LIBERO-Plus和RoboTwin 2.0-Plus基准上表现出更强的鲁棒性。LingBot-VA在RoboTwin 2.0-Plus上达到了74.2%的成功率,Cosmos-Policy在LIBERO-Plus上达到了82.2%的成功率。相比之下,虽然某些VLA模型(如$π_{0.5}$)在特定任务上可以达到类似的鲁棒性,但需要大量的数据训练和复杂的学习目标。

🎯 应用场景

该研究成果可应用于各种机器人应用场景,例如家庭服务机器人、工业自动化机器人和自动驾驶汽车等。通过提高机器人行动规划的鲁棒性和泛化能力,可以使机器人在复杂和动态的环境中更好地执行任务,从而提高工作效率和安全性。未来,该研究可以进一步扩展到更复杂的任务和环境,例如多机器人协作和人机交互。

📄 摘要(原文)

Robot action planning in the real world is challenging as it requires not only understanding the current state of the environment but also predicting how it will evolve in response to actions. Vision-language-action (VLA), which repurpose large-scale vision-language models for robot action generation using action experts, have achieved notable success across a variety of robotic tasks. Nevertheless, their performance remains constrained by the scope of their training data, exhibiting limited generalization to unseen scenarios and vulnerability to diverse contextual perturbations. More recently, world models have been revisited as an alternative to VLAs. These models, referred to as world action models (WAMs), are built upon world models that are trained on large corpora of video data to predict future states. With minor adaptations, their latent representation can be decoded into robot actions. It has been suggested that their explicit dynamic prediction capacity, combined with spatiotemporal priors acquired from web-scale video pretraining, enables WAMs to generalize more effectively than VLAs. In this paper, we conduct a comparative study of prominent state-of-the-art VLA policies and recently released WAMs. We evaluate their performance on the LIBERO-Plus and RoboTwin 2.0-Plus benchmarks under various visual and language perturbations. Our results show that WAMs achieve strong robustness, with LingBot-VA reaching 74.2% success rate on RoboTwin 2.0-Plus and Cosmos-Policy achieving 82.2% on LIBERO-Plus. While VLAs such as $π_{0.5}$ can achieve comparable robustness on certain tasks, they typically require extensive training with diverse robotic datasets and varied learning objectives. Hybrid approaches that partially incorporate video-based dynamic learning exhibit intermediate robustness, highlighting the importance of how video priors are integrated.