Learning Latent Action World Models In The Wild
作者: Quentin Garrido, Tushar Nagarajan, Basile Terver, Nicolas Ballas, Yann LeCun, Michael Rabbat
分类: cs.AI, cs.CV
发布日期: 2026-01-08
备注: 37 pages, 25 figures
💡 一句话要点
提出一种在真实场景视频中学习隐式动作世界模型的方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 隐式动作学习 世界模型 视频预测 无监督学习 真实场景视频
📋 核心要点
- 现有世界模型依赖动作标签,获取成本高昂,限制了其在真实场景中的应用。
- 提出一种学习隐式动作的世界模型,仅从视频中学习动作空间,无需动作标签。
- 实验表明,该模型能够捕捉真实场景视频中动作的复杂性,并具备一定的泛化能力。
📝 摘要(中文)
本文提出了一种在真实场景视频中学习隐式动作世界模型的方法,旨在解决现有世界模型依赖动作标签的问题。该方法能够仅从视频中学习动作空间,从而扩展了现有工作在简单机器人仿真、视频游戏或操作数据上的应用范围。虽然真实场景视频具有更丰富的动作,但也带来了环境噪声和缺乏通用具身等挑战。为了应对这些挑战,本文讨论了动作应遵循的属性,以及相关的架构选择和评估方法。实验表明,连续但受约束的隐式动作能够捕捉真实场景视频中动作的复杂性,并且能够跨视频迁移环境变化。此外,本文还训练了一个控制器,将已知动作映射到隐式动作,从而将隐式动作用作通用接口,并使用世界模型解决规划任务,性能与基于动作条件的方法相当。该研究为将隐式动作模型扩展到真实世界迈出了一步。
🔬 方法详解
问题定义:现有世界模型通常需要动作标签进行训练,但在真实场景中,获取精确的动作标签非常困难且成本高昂。这限制了世界模型在更广泛、更复杂的环境中的应用。此外,真实场景视频的多样性(例如环境噪声、视角变化、缺乏统一的具身)也给模型的学习带来了挑战。
核心思路:本文的核心思路是学习一个隐式的动作空间,即从视频数据中自动发现动作的表示,而无需显式的动作标签。通过学习这种隐式动作空间,模型可以预测给定状态和隐式动作下,环境的未来状态。这种方法的关键在于设计合适的约束和架构,以确保学习到的隐式动作具有良好的可解释性和控制性。
技术框架:整体框架包含一个视频编码器、一个隐式动作编码器、一个状态预测器和一个解码器。视频编码器将视频帧编码成状态表示。隐式动作编码器将状态表示编码成隐式动作向量。状态预测器基于当前状态和隐式动作预测下一个状态。解码器将预测的状态解码成视频帧。整个框架通过最小化预测帧和真实帧之间的差异进行端到端训练。
关键创新:最重要的创新点在于提出了在真实场景视频中学习隐式动作世界模型的方法。与以往在简单环境或模拟环境中学习动作模型不同,本文的方法能够处理真实场景视频的复杂性和多样性。此外,本文还提出了一种连续但受约束的隐式动作表示方法,能够更好地捕捉动作的复杂性。
关键设计:为了约束隐式动作空间,作者使用了多种方法,包括对隐式动作向量进行正则化,以及使用对比学习来鼓励相似状态下的隐式动作向量相似。损失函数包括重构损失(预测帧和真实帧之间的差异)和正则化损失(约束隐式动作空间)。网络结构方面,作者使用了卷积神经网络作为视频编码器和解码器,使用循环神经网络作为状态预测器。
📊 实验亮点
实验结果表明,该方法能够有效地学习真实场景视频中的隐式动作。例如,模型能够学习到人类进入房间等动作,并将其迁移到不同的视频中。此外,通过训练一个控制器,将已知动作映射到隐式动作,该模型能够在规划任务中取得与基于动作条件的方法相当的性能。这些结果表明,该方法具有良好的泛化能力和实用价值。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、视频游戏等领域。通过学习环境中的隐式动作,机器人或智能体可以更好地理解环境,并规划出更有效的行动方案。例如,自动驾驶系统可以学习人类驾驶员的驾驶行为,从而提高驾驶安全性。此外,该技术还可以用于视频编辑和生成,例如根据用户的意图自动生成视频片段。
📄 摘要(原文)
Agents capable of reasoning and planning in the real world require the ability of predicting the consequences of their actions. While world models possess this capability, they most often require action labels, that can be complex to obtain at scale. This motivates the learning of latent action models, that can learn an action space from videos alone. Our work addresses the problem of learning latent actions world models on in-the-wild videos, expanding the scope of existing works that focus on simple robotics simulations, video games, or manipulation data. While this allows us to capture richer actions, it also introduces challenges stemming from the video diversity, such as environmental noise, or the lack of a common embodiment across videos. To address some of the challenges, we discuss properties that actions should follow as well as relevant architectural choices and evaluations. We find that continuous, but constrained, latent actions are able to capture the complexity of actions from in-the-wild videos, something that the common vector quantization does not. We for example find that changes in the environment coming from agents, such as humans entering the room, can be transferred across videos. This highlights the capability of learning actions that are specific to in-the-wild videos. In the absence of a common embodiment across videos, we are mainly able to learn latent actions that become localized in space, relative to the camera. Nonetheless, we are able to train a controller that maps known actions to latent ones, allowing us to use latent actions as a universal interface and solve planning tasks with our world model with similar performance as action-conditioned baselines. Our analyses and experiments provide a step towards scaling latent action models to the real world.