Learning Latent Action World Models In The Wild

📄 arXiv: 2601.05230v1 📥 PDF

作者: Quentin Garrido, Tushar Nagarajan, Basile Terver, Nicolas Ballas, Yann LeCun, Michael Rabbat

分类: cs.AI, cs.CV

发布日期: 2026-01-08

备注: 37 pages, 25 figures


💡 一句话要点

提出一种在真实场景视频中学习隐式动作世界模型的方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 隐式动作学习 世界模型 无监督学习 视频预测 机器人控制

📋 核心要点

  1. 现有世界模型依赖动作标签,而大规模获取动作标签成本高昂,限制了其在真实场景中的应用。
  2. 提出一种学习隐式动作的世界模型,仅从无标签视频中学习动作空间,无需人工标注动作。
  3. 实验表明,该模型能够捕捉真实场景视频中动作的复杂性,并学习到与环境交互相关的隐式动作。

📝 摘要(中文)

本文提出了一种在真实场景视频中学习隐式动作世界模型的方法,旨在解决现有世界模型依赖动作标签的问题。该方法无需动作标签,仅从视频中学习动作空间。与以往专注于简单机器人仿真、视频游戏或操作数据的研究不同,本文关注真实场景视频,这带来了环境噪声和缺乏通用具身性等挑战。为了应对这些挑战,本文讨论了动作应遵循的属性、相关的架构选择和评估方法。实验表明,连续但受约束的隐式动作能够捕捉真实场景视频中动作的复杂性,而常见的向量量化方法则无法做到。例如,能够跨视频迁移由人类进入房间等智能体引起的环境变化。此外,虽然主要学习到相对于相机的局部空间中的隐式动作,但仍能训练控制器将已知动作映射到隐式动作,从而使用隐式动作作为通用接口,并以与动作条件基线相似的性能解决规划任务。本文的分析和实验为将隐式动作模型扩展到现实世界迈出了一步。

🔬 方法详解

问题定义:现有世界模型通常需要动作标签作为输入,这在实际应用中是一个很大的限制,因为获取大规模、高质量的动作标签非常困难。尤其是在真实世界的视频中,动作的多样性和复杂性使得标注工作更加具有挑战性。因此,如何从无标签的视频数据中学习到有效的动作表示,并构建相应的世界模型,是一个亟待解决的问题。

核心思路:本文的核心思路是通过学习一个隐式的动作空间来表示视频中的动作。这个隐式动作空间不需要预先定义的动作标签,而是通过学习视频帧之间的变化来推断动作。通过约束隐式动作空间的连续性,可以更好地捕捉动作的细微变化,并提高模型的泛化能力。此外,通过训练一个控制器,可以将已知的动作映射到隐式动作空间,从而实现对世界模型的控制。

技术框架:该方法主要包含以下几个模块:1) 视频编码器:将视频帧编码成高维特征向量。2) 隐式动作编码器:将连续的视频帧特征编码成隐式动作向量。3) 世界模型:根据当前状态和隐式动作预测下一时刻的状态。4) 控制器:将已知的动作映射到隐式动作空间。整个流程是,首先使用视频编码器提取视频特征,然后使用隐式动作编码器学习隐式动作表示,接着使用世界模型预测未来状态,最后使用控制器将已知动作映射到隐式动作空间,从而控制世界模型。

关键创新:本文最重要的创新点在于提出了一个学习隐式动作的世界模型,该模型不需要动作标签,可以直接从视频中学习动作表示。与传统的基于向量量化的方法不同,本文使用连续的隐式动作空间,可以更好地捕捉动作的细微变化。此外,本文还提出了一个控制器,可以将已知的动作映射到隐式动作空间,从而实现对世界模型的控制。

关键设计:在隐式动作编码器中,使用了连续的隐式动作空间,并通过约束其连续性来提高模型的泛化能力。具体来说,可以使用VAE(Variational Autoencoder)或类似的模型来学习隐式动作空间。在世界模型中,可以使用循环神经网络(RNN)或Transformer等模型来预测未来状态。损失函数包括重构损失和预测损失,用于训练视频编码器、隐式动作编码器和世界模型。控制器的训练可以使用强化学习或监督学习的方法。

📊 实验亮点

实验结果表明,该方法能够有效地学习真实场景视频中的隐式动作,并能够捕捉到由智能体引起的环境变化。此外,通过训练控制器,可以将已知动作映射到隐式动作空间,并以与动作条件基线相似的性能解决规划任务。这表明该方法具有很强的泛化能力和实用价值。

🎯 应用场景

该研究成果可应用于机器人控制、自动驾驶、视频游戏等领域。通过学习隐式动作,机器人可以在没有人工干预的情况下,自主学习各种技能。在自动驾驶领域,该方法可以用于预测其他车辆或行人的行为,从而提高驾驶安全性。在视频游戏领域,该方法可以用于生成更加逼真的游戏角色动作。

📄 摘要(原文)

Agents capable of reasoning and planning in the real world require the ability of predicting the consequences of their actions. While world models possess this capability, they most often require action labels, that can be complex to obtain at scale. This motivates the learning of latent action models, that can learn an action space from videos alone. Our work addresses the problem of learning latent actions world models on in-the-wild videos, expanding the scope of existing works that focus on simple robotics simulations, video games, or manipulation data. While this allows us to capture richer actions, it also introduces challenges stemming from the video diversity, such as environmental noise, or the lack of a common embodiment across videos. To address some of the challenges, we discuss properties that actions should follow as well as relevant architectural choices and evaluations. We find that continuous, but constrained, latent actions are able to capture the complexity of actions from in-the-wild videos, something that the common vector quantization does not. We for example find that changes in the environment coming from agents, such as humans entering the room, can be transferred across videos. This highlights the capability of learning actions that are specific to in-the-wild videos. In the absence of a common embodiment across videos, we are mainly able to learn latent actions that become localized in space, relative to the camera. Nonetheless, we are able to train a controller that maps known actions to latent ones, allowing us to use latent actions as a universal interface and solve planning tasks with our world model with similar performance as action-conditioned baselines. Our analyses and experiments provide a step towards scaling latent action models to the real world.