World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis
作者: Yi Yang, Zhihong Liu, Siqi Kou, Yiyang Chen, Yanzhe Hu, Jianbo Zhou, Boyuan Zhao, Zhijie Wei, Xiao Xia, Xueqi Li, Pengfei Liu, Zhijie Deng
分类: cs.RO, cs.AI
发布日期: 2026-06-04
备注: 19 pages, 10 figures
💡 一句话要点
提出世界-语言-动作模型以实现统一的世界建模与任务推理
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长视频理解 多模态融合 自回归模型 机器人控制 语言推理
📋 核心要点
- 现有方法在处理复杂长时间任务时,缺乏有效的世界建模与语言推理能力,导致性能受限。
- WLA模型通过自回归Transformer架构,结合世界建模和语言推理,能够更好地理解和执行复杂任务。
- WLA-0原型在NVIDIA RTX 5090上实现了40毫秒的推理时间,并在多个基准测试中表现出色,成功率显著提升。
📝 摘要(中文)
本文提出了一种新的具身基础模型——世界-语言-动作(WLA)模型。WLA模型能够同时处理文本指令、图像和机器人状态,预测文本子任务、子目标图像和机器人动作。其核心是自回归Transformer骨干网络,能够预测下一个状态,包括语义层面的文本意图和细粒度的物理动态。通过世界建模目标和世界专家的监督,WLA模型在模拟和真实环境中展示了卓越的多任务和长时间学习能力,成功率在RoboTwin2.0 Clean上达到92.94%。
🔬 方法详解
问题定义:本文旨在解决现有模型在复杂长时间任务中的世界建模和语言推理不足的问题,导致机器人在执行任务时的效率和准确性受限。
核心思路:WLA模型通过结合自回归Transformer和世界建模接口,能够有效地从大量自我中心视频中学习,同时解决复杂任务的语言推理问题。这样的设计使得模型能够在多模态输入下进行有效的状态预测和动作生成。
技术框架:WLA模型的整体架构包括三个主要模块:文本指令输入、图像和机器人状态输入,利用自回归Transformer进行状态预测,并通过世界专家和动作专家进行监督和优化。
关键创新:WLA模型的核心创新在于使用自回归Transformer替代传统的双向扩散Transformer,使得模型在状态预测时能够更好地捕捉语义意图和物理动态的关系。
关键设计:模型的关键设计包括2B的活跃参数设置,损失函数的设计以支持世界建模目标,以及通过元查询机制使得世界预测在推理时能够隐式影响动作生成。
🖼️ 关键图片
📊 实验亮点
WLA-0原型在RoboTwin2.0 Clean上取得了92.94%的成功率,在RMBench上成功率为56.5%。这些结果表明,WLA模型在多任务和长时间学习能力方面达到了当前的最先进水平,展示了其在实际应用中的巨大潜力。
🎯 应用场景
该研究具有广泛的应用潜力,尤其在机器人控制、自动化任务执行和人机交互等领域。WLA模型能够直接从跨具身机器人视频中学习新任务,减少对人工标注的依赖,提升机器人在复杂环境中的适应能力和灵活性。
📄 摘要(原文)
We propose world-language-action (WLA) models as a new class of embodied foundation models. WLA takes textual instructions, images, and robot states as inputs to jointly predict textual subtasks, subgoal images, and robot actions, conjoining the \emph{world modeling interface} to learn from extensive egocentric videos as in the world-action model (WAM) and the \emph{language reasoning} capacities to solve complex long-horizon tasks as in vision-language-action (VLA) models. At the core of WLA lies an \emph{autoregressive (AR)} Transformer backbone, instead of a bidirectional diffusion Transformer as in WAMs, to predict the \emph{next state}, comprising the \emph{semantic-level} textual intention and complementary \emph{fine-grained} physical dynamics. The physical dynamics are supervised by the world modeling objective based on a dedicated World Expert, and are leveraged to ease the characterization of the state-action correlation for the Action Expert. WLA leverages meta-queries to make the world prediction \emph{implicitly} impact the action generation so that the former can be disabled during inference. The world prediction can also be activated to enable test-time scaling for improved robot control. Our WLA-0 prototype, with 2B active parameters, achieves 40 ms per inference on an NVIDIA RTX 5090. Evaluations across simulated and real-world environments demonstrate that WLA-0 achieves state-of-the-art multi-task and long-horizon learning abilities, e.g., 92.94\% success rate on RoboTwin2.0 Clean and 56.5\% success rate on RMBench. WLA-0 also holds the promise to learn novel tasks directly from \emph{cross-embodiment robot videos} without action annotations.