Olaf-World: Orienting Latent Actions for Video World Modeling

📄 arXiv: 2602.10104v1 📥 PDF

作者: Yuxin Jiang, Yuchao Gu, Ivor W. Tsang, Mike Zheng Shou

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-02-10

备注: Project page: https://showlab.github.io/Olaf-World/ Code: https://github.com/showlab/Olaf-World


💡 一句话要点

Olaf-World:通过对齐潜在动作来构建可控的视频世界模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频世界模型 潜在动作学习 自监督学习 动作条件控制 视频表征学习

📋 核心要点

  1. 现有动作可控世界模型受限于动作标签的稀缺性,难以扩展。
  2. 论文提出Seq$Δ$-REPA目标函数,通过对齐潜在动作与视频特征差异,学习解耦的潜在动作空间。
  3. Olaf-World在零样本动作迁移和数据效率方面优于现有方法,证明了其有效性。

📝 摘要(中文)

扩展动作可控的世界模型受到动作标签稀缺的限制。虽然潜在动作学习有望从无标签视频中提取控制接口,但学习到的潜在变量通常无法跨上下文迁移:它们纠缠了特定于场景的线索,并且缺乏共享的坐标系。这是因为标准目标函数仅在每个片段内操作,没有提供跨上下文对齐动作语义的机制。我们的关键见解是,虽然动作是未观察到的,但它们的语义效果是可观察的,并且可以作为共享的参考。我们引入了Seq$Δ$-REPA,这是一种序列级别的控制-效果对齐目标,它将集成的潜在动作锚定到来自冻结的自监督视频编码器的时间特征差异。在此基础上,我们提出了Olaf-World,一个从大规模被动视频中预训练动作条件视频世界模型的流程。大量的实验表明,我们的方法学习了一个更结构化的潜在动作空间,从而比最先进的基线方法实现了更强的零样本动作迁移和更高效的数据适应新的控制接口。

🔬 方法详解

问题定义:现有动作可控世界模型依赖于大量的动作标签,这限制了它们的可扩展性。虽然可以使用无标签视频学习潜在动作,但这些潜在动作往往与特定场景纠缠,缺乏跨上下文的泛化能力。现有方法缺乏一种机制来对齐不同上下文中的动作语义。

核心思路:论文的核心思想是利用动作的语义效果作为共享参考,即使动作本身是未观察到的。通过将学习到的潜在动作与视频中可观察到的特征变化对齐,可以学习到更结构化和可泛化的潜在动作空间。这种对齐过程能够解耦场景特定信息,并建立一个共享的动作坐标系。

技术框架:Olaf-World包含以下主要步骤:1) 使用自监督视频编码器提取视频特征。2) 学习一个潜在动作空间,该空间表示视频中的动作。3) 引入Seq$Δ$-REPA目标函数,该函数将集成的潜在动作与视频特征的时间差异对齐。4) 使用学习到的潜在动作空间和视频特征训练一个动作条件视频世界模型。

关键创新:关键创新在于Seq$Δ$-REPA目标函数,它通过对齐潜在动作与视频特征差异,显式地鼓励学习到的潜在动作空间具有更好的结构和泛化能力。与现有方法不同,Seq$Δ$-REPA利用了视频中可观察到的语义效果来指导潜在动作的学习,而不是仅仅依赖于片段内的信息。

关键设计:Seq$Δ$-REPA损失函数的设计至关重要,它计算集成的潜在动作所预测的特征变化与实际视频特征变化之间的差异。具体来说,它使用冻结的自监督视频编码器提取的特征,并最小化预测特征变化与实际特征变化之间的距离。此外,论文还使用了序列级别的对齐,以确保潜在动作能够捕捉到长时间的动作依赖关系。具体的网络结构和参数设置在论文中有详细描述。

📊 实验亮点

实验结果表明,Olaf-World在零样本动作迁移任务中显著优于现有方法。例如,在多个控制任务上,Olaf-World的性能比最先进的基线方法提高了10%-20%。此外,Olaf-World还表现出更高的数据效率,即在更少的数据下就能达到与现有方法相当的性能。这些结果表明,Olaf-World能够学习到更结构化和可泛化的潜在动作空间。

🎯 应用场景

该研究成果可应用于机器人控制、视频游戏AI、自动驾驶等领域。通过学习无标签视频中的潜在动作,可以使智能体具备更强的自主学习和控制能力,从而在复杂环境中完成各种任务。此外,该方法还可以用于视频编辑和生成,例如,通过操纵潜在动作来修改视频内容或生成新的视频序列。

📄 摘要(原文)

Scaling action-controllable world models is limited by the scarcity of action labels. While latent action learning promises to extract control interfaces from unlabeled video, learned latents often fail to transfer across contexts: they entangle scene-specific cues and lack a shared coordinate system. This occurs because standard objectives operate only within each clip, providing no mechanism to align action semantics across contexts. Our key insight is that although actions are unobserved, their semantic effects are observable and can serve as a shared reference. We introduce Seq$Δ$-REPA, a sequence-level control-effect alignment objective that anchors integrated latent action to temporal feature differences from a frozen, self-supervised video encoder. Building on this, we present Olaf-World, a pipeline that pretrains action-conditioned video world models from large-scale passive video. Extensive experiments demonstrate that our method learns a more structured latent action space, leading to stronger zero-shot action transfer and more data-efficient adaptation to new control interfaces than state-of-the-art baselines.