WALL-WM: Carving World Action Modeling at the Event Joints

作者: Shalfun Li, Victor Yao, Charles Yang, Truth Qu, Regis Cheng, Ryan Yu, Howard Lu, Newton Von, Vincent Chen, Yohann Tang, Maeve Zhang, Ellie Ma, Gody Li, Sage Yang, Lorien Shu, J. W. Gao, Ethan Chen, Colin Ye, Yu Sun, Elise Mon, PS Zhang, Neo Li, Lily Li, James Wang, Ping Yang, Chris Pan, Lucy Liang, Hang Su, Roy Gan, Hao Wang, Qian Wang

分类: cs.RO, cs.CV

发布日期: 2026-06-01

💡 一句话要点

WALL-WM：通过事件联合雕琢世界行为建模，实现更精细的视频-行为学习。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 世界行为模型 视觉-语言-行为预训练 事件驱动 机器人控制 行为预测 多模态学习 泛化能力

📋 核心要点

现有世界行为模型（WAM）以固定长度的行为片段为中心进行优化，导致语言、视觉和行为三者粒度不匹配。
WALL-WM通过将监督和数据围绕语义事件组织，实现事件级别的视觉-语言-行为预训练，从而解决粒度不匹配问题。
WALL-WM在真实世界泛化评估中取得了最先进的性能，证明了其在语言、场景和任务上的广泛泛化能力。

📝 摘要（中文）

WALL-WM是一种世界行为模型，它将视频-行为学习从以片段为中心的优化转变为以事件为基础的视觉-语言-行为预训练，使用语义连贯的行为事件作为学习的基本单元。现有的WAM通常从多模态或视频基础模型初始化，然后优化直接以当前观察和指令为条件的固定长度行为片段。这种以片段为中心的公式存在根本的粒度不匹配问题。语言描述语义目标和事件，视觉通过连续的场景动态演变，而行为在控制级别的时间尺度上运行；将所有三个方面强行放入相同的固定长度预测窗口会将VLA训练变成短视域相关性拟合。WALL-WM通过围绕语义事件组织监督和数据来解决这种不匹配。具体来说，它将以事件为基础的VLA预训练与由事件级别字幕和聚类平衡采样构建的数据生态系统相结合，从而能够在各种行为、场景和任务结构上进行可扩展的学习。WALL-WM支持两种互补的推理模式。事件模式消耗下一个事件描述并启用可变长度执行片段，而统一模式使用带有阶梯解码的VLM来调节传统的固定长度片段推理，同时保留梯度连续的VLA路径。结合基于Muon优化器的大规模预训练基础设施，WALL-WM为通用WAM提供了一种实用的放大方案。实验表明，WALL-WM在语言、场景和任务中广泛泛化，并在大规模真实世界泛化评估中实现了最先进的性能。

🔬 方法详解

问题定义：现有世界行为模型（WAM）通常以固定长度的行为片段为中心进行优化，这导致了语言、视觉和行为三个模态之间存在根本的粒度不匹配问题。语言描述的是语义目标和事件，视觉信息随着场景动态连续演变，而行为则在控制级别的时间尺度上运行。将这三者强行放入相同的固定长度预测窗口，使得VLA训练变成了短视域的相关性拟合，限制了模型的泛化能力。

核心思路：WALL-WM的核心思路是将视频-行为学习从以片段为中心的优化转变为以事件为基础的视觉-语言-行为预训练。通过将监督和数据围绕语义事件进行组织，WALL-WM能够更好地对齐语言、视觉和行为三个模态，从而解决粒度不匹配的问题。这种方法使得模型能够学习到更具语义连贯性的行为表示，从而提高泛化能力。

技术框架：WALL-WM的技术框架主要包括事件级别的视觉-语言-行为预训练和两种互补的推理模式。预训练阶段，模型使用事件级别的字幕和聚类平衡采样构建的数据生态系统进行训练。推理阶段，模型支持事件模式和统一模式两种推理方式。事件模式消耗下一个事件描述并启用可变长度执行片段，而统一模式使用带有阶梯解码的VLM来调节传统的固定长度片段推理，同时保留梯度连续的VLA路径。此外，WALL-WM还采用了基于Muon优化器的大规模预训练基础设施。

关键创新：WALL-WM最重要的技术创新点在于其以事件为基础的视觉-语言-行为预训练方法。与现有方法不同，WALL-WM不再以固定长度的行为片段为中心进行优化，而是将监督和数据围绕语义事件进行组织。这种方法能够更好地对齐语言、视觉和行为三个模态，从而解决粒度不匹配的问题。此外，WALL-WM还提出了两种互补的推理模式，进一步提高了模型的灵活性和泛化能力。

关键设计：WALL-WM的关键设计包括事件级别的字幕和聚类平衡采样构建的数据生态系统，以及两种互补的推理模式（事件模式和统一模式）。事件级别的字幕能够提供更丰富的语义信息，而聚类平衡采样能够保证模型在训练过程中能够学习到各种不同的行为。事件模式和统一模式则分别适用于不同的应用场景，前者适用于需要可变长度执行片段的场景，后者适用于需要固定长度片段推理的场景。

🖼️ 关键图片

📊 实验亮点

WALL-WM在真实世界泛化评估中取得了最先进的性能，证明了其在语言、场景和任务上的广泛泛化能力。具体性能数据和对比基线在论文中详细给出，表明WALL-WM显著优于现有方法。该模型在各种复杂场景下的表现，验证了其在实际应用中的潜力。

🎯 应用场景

WALL-WM具有广泛的应用前景，例如机器人控制、自动驾驶、智能助手等。它可以帮助机器人更好地理解人类的指令，并根据环境的变化做出相应的行为。在自动驾驶领域，WALL-WM可以用于预测行人的行为，从而提高驾驶安全性。在智能助手领域，WALL-WM可以用于理解用户的意图，并提供更个性化的服务。未来，WALL-WM有望成为通用世界行为模型的基础。

📄 摘要（原文）

WALL-WM is a World Action Model that shifts video-action learning from chunk-centric optimization to event-grounded Vision-Language-Action pretraining, using semantically coherent action events as the atomic unit of learning. Existing WAMs commonly initialize from multimodal or video foundation models and then optimize fixed-length action chunks conditioned directly on the current observation and instruction. Although convenient, this chunk-centric formulation creates a fundamental granularity mismatch. Language describes semantic goals and events, vision evolves through continuous scene dynamics, and actions operate at control-level timescales; forcing all three into the same fixed-length prediction window turns VLA training into short-horizon correlation fitting. WALL-WM addresses this mismatch by organizing both supervision and data around semantic events. Specifically, it pairs event-grounded VLA pretraining with a data ecosystem built from event-level captions and cluster-balanced sampling, enabling scalable learning over diverse behaviors, scenes, and task structures. From the same event-pretrained backbone, WALL-WM supports two complementary inference modes. The event mode consumes next-event descriptions and enables variable-length execution chunks, while the unified mode uses a VLM with Staircase Decoding to condition conventional fixed-length chunk inference while preserving a gradient-continuous VLA path. Together with Muon-optimizer-based large-scale pretraining infrastructure, WALL-WM provides a practical scale-up recipe for general-purpose WAMs. Experiments show that WALL-WM generalizes broadly across language, scenes, and tasks, achieving state-of-the-art performance in large-scale real-world generalization evaluation.

WALL-WM: Carving World Action Modeling at the Event Joints

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理