Fast-WAM: Do World Action Models Need Test-time Future Imagination?

📄 arXiv: 2603.16666v1 📥 PDF

作者: Tianyuan Yuan, Zibin Dong, Yicheng Liu, Hang Zhao

分类: cs.CV, cs.AI

发布日期: 2026-03-17

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出Fast-WAM,无需测试时未来想象,加速具身控制任务。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 世界行动模型 具身控制 视频预测 模型解耦 实时推理

📋 核心要点

  1. 现有世界行动模型(WAM)依赖测试时未来想象,导致高延迟,影响实时性。
  2. Fast-WAM保留训练时的视频建模,但跳过测试时的未来预测,降低延迟。
  3. 实验表明,Fast-WAM在性能上与现有方法竞争,且速度提升4倍以上。

📝 摘要(中文)

世界行动模型(WAMs)已成为具身控制中视觉-语言-动作(VLA)模型的一种有前景的替代方案,因为它们显式地模拟了视觉观察如何随动作演变。大多数现有的WAM遵循“想象-然后-执行”的范式,从迭代视频去噪中产生大量的测试时延迟,但目前尚不清楚显式的未来想象对于强大的动作性能是否真正必要。在本文中,我们探讨了WAM是否需要在测试时进行显式的未来想象,或者它们的优势是否主要来自训练期间的视频建模。我们通过提出Fast-WAM来分离训练期间的视频建模与推理期间的显式未来生成的作用,Fast-WAM是一种WAM架构,它保留了训练期间的视频协同训练,但在测试时跳过了未来预测。我们进一步实例化了几个Fast-WAM变体,以实现对这两个因素的受控比较。在这些变体中,我们发现Fast-WAM与“想象-然后-执行”变体相比仍然具有竞争力,而移除视频协同训练会导致更大的性能下降。在实验上,Fast-WAM在模拟基准(LIBERO和RoboTwin)和真实世界任务上都取得了与最先进方法相比具有竞争力的结果,而无需具身预训练。它以190ms的延迟实时运行,比现有的“想象-然后-执行”WAM快4倍以上。这些结果表明,视频预测在WAM中的主要价值可能在于改善训练期间的世界表征,而不是在测试时生成未来的观察。

🔬 方法详解

问题定义:现有世界行动模型(WAMs)在具身控制任务中,通常采用“想象-然后-执行”的模式,即在每个时间步,模型需要预测未来的视觉状态,然后基于预测的状态选择动作。这种方式虽然能够利用视频预测来提升控制性能,但同时也引入了大量的计算开销,导致测试时的延迟较高,难以满足实时性要求。因此,如何降低WAM的测试时延迟,同时保持其控制性能,是一个重要的研究问题。

核心思路:本文的核心思路是解耦视频建模和未来预测在WAM中的作用。作者认为,WAM的性能提升可能主要来自于训练阶段的视频建模,而不是测试阶段的未来预测。因此,作者提出了一种名为Fast-WAM的架构,该架构在训练阶段仍然进行视频建模,但在测试阶段则直接基于当前观测选择动作,而无需进行未来预测。

技术框架:Fast-WAM的整体框架与传统的WAM类似,主要包括一个视觉编码器、一个动作编码器和一个世界模型。在训练阶段,Fast-WAM通过最小化视频预测误差来学习世界模型。具体来说,模型首先将当前观测和动作编码为隐状态,然后使用世界模型预测下一个时刻的观测。模型通过比较预测的观测和真实的观测来更新模型参数。在测试阶段,Fast-WAM直接将当前观测和动作编码为隐状态,然后使用策略网络选择动作,而无需进行未来预测。

关键创新:Fast-WAM的关键创新在于它将视频建模和未来预测解耦,从而降低了测试时的延迟。与传统的WAM相比,Fast-WAM在测试时不需要进行迭代的视频去噪,因此可以实现更快的推理速度。此外,Fast-WAM还通过实验证明,视频建模在训练阶段对于提升控制性能至关重要,而未来预测在测试阶段的作用相对较小。

关键设计:Fast-WAM的关键设计包括:1) 使用Transformer网络作为视觉编码器和动作编码器,以捕捉视觉和动作之间的长期依赖关系;2) 使用变分自编码器(VAE)作为世界模型,以学习世界的概率表示;3) 使用Actor-Critic算法训练策略网络,以优化控制策略;4) 在训练阶段,使用视频预测误差和控制奖励作为损失函数,以联合优化世界模型和策略网络。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Fast-WAM在LIBERO和RoboTwin等模拟基准测试中取得了与最先进方法相媲美的性能,同时在真实世界任务中也表现出色。最重要的是,Fast-WAM的推理速度比现有的“想象-然后-执行”WAM快4倍以上,延迟仅为190ms,使其更适合实时应用。

🎯 应用场景

Fast-WAM在机器人控制、自动驾驶、游戏AI等领域具有广泛的应用前景。它可以用于开发低延迟、高性能的具身智能系统,使机器人能够更快地响应环境变化,并做出更准确的决策。此外,Fast-WAM还可以用于开发更逼真的游戏AI,使游戏角色能够更好地模拟人类的行为。

📄 摘要(原文)

World Action Models (WAMs) have emerged as a promising alternative to Vision-Language-Action (VLA) models for embodied control because they explicitly model how visual observations may evolve under action. Most existing WAMs follow an imagine-then-execute paradigm, incurring substantial test-time latency from iterative video denoising, yet it remains unclear whether explicit future imagination is actually necessary for strong action performance. In this paper, we ask whether WAMs need explicit future imagination at test time, or whether their benefit comes primarily from video modeling during training. We disentangle the role of video modeling during training from explicit future generation during inference by proposing \textbf{Fast-WAM}, a WAM architecture that retains video co-training during training but skips future prediction at test time. We further instantiate several Fast-WAM variants to enable a controlled comparison of these two factors. Across these variants, we find that Fast-WAM remains competitive with imagine-then-execute variants, while removing video co-training causes a much larger performance drop. Empirically, Fast-WAM achieves competitive results with state-of-the-art methods both on simulation benchmarks (LIBERO and RoboTwin) and real-world tasks, without embodied pretraining. It runs in real time with 190ms latency, over 4$\times$ faster than existing imagine-then-execute WAMs. These results suggest that the main value of video prediction in WAMs may lie in improving world representations during training rather than generating future observations at test time. Project page: https://yuantianyuan01.github.io/FastWAM/