VideoWorld 2: Learning Transferable Knowledge from Real-world Videos

📄 arXiv: 2602.10102v1 📥 PDF

作者: Zhongwei Ren, Yunchao Wei, Xiao Yu, Guixun Luo, Yao Zhao, Bingyi Kang, Jiashi Feng, Xiaojie Jin

分类: cs.CV

发布日期: 2026-02-10

备注: Code and models are released at: https://maverickren.github.io/VideoWorld2.github.io/


💡 一句话要点

VideoWorld 2:提出动态增强潜在动力学模型,从真实视频中学习可迁移知识

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频理解 可迁移学习 潜在动力学模型 机器人操作 长时推理

📋 核心要点

  1. 现有方法难以从真实世界视频中学习可迁移知识,限制了智能体在复杂环境中的应用。
  2. 提出动态增强潜在动力学模型(dLDM),解耦视觉外观与动作动力学,学习紧凑的任务相关潜在代码。
  3. 在手工制作和机器人操作任务上,VideoWorld 2显著提升了任务成功率和长时推理能力。

📝 摘要(中文)

本文提出了VideoWorld 2,旨在研究直接从原始真实世界视频中学习可迁移知识。VideoWorld 2引入了一种动态增强的潜在动力学模型(dLDM),该模型将动作动力学与视觉外观解耦:预训练的视频扩散模型处理视觉外观建模,使dLDM能够学习专注于紧凑且有意义的任务相关动力学的潜在代码。然后,自回归地对这些潜在代码进行建模,以学习任务策略并支持长时推理。在具有挑战性的真实手工制作任务中评估了VideoWorld 2,在这些任务中,先前的视频生成和潜在动力学模型难以可靠地运行。值得注意的是,VideoWorld 2在任务成功率方面实现了高达70%的提升,并产生了连贯的长执行视频。在机器人技术中,表明VideoWorld 2可以从Open-X数据集中获取有效的操作知识,从而显着提高CALVIN上的任务性能。这项研究揭示了直接从原始视频中学习可迁移世界知识的潜力,所有代码、数据和模型都将开源,以供进一步研究。

🔬 方法详解

问题定义:现有方法难以直接从原始真实世界视频中学习可迁移知识,尤其是在视觉复杂、动作多样的场景下。先前的视频生成和潜在动力学模型在处理真实世界任务时,往往面临泛化能力不足、推理不连贯等问题。

核心思路:核心在于解耦视频中的视觉外观和动作动力学。通过预训练的视频扩散模型处理视觉外观,使得后续的潜在动力学模型可以专注于学习与任务相关的、更紧凑和有意义的潜在代码。这种解耦的设计使得模型能够更好地泛化到新的环境和任务。

技术框架:VideoWorld 2的核心是动态增强的潜在动力学模型(dLDM)。整体流程包括:1) 使用预训练的视频扩散模型对输入视频进行编码,提取视觉特征;2) dLDM学习潜在代码,这些代码专注于动作动力学;3) 使用自回归模型对这些潜在代码进行建模,学习任务策略,并支持长时推理。

关键创新:关键创新在于动态增强的潜在动力学模型(dLDM),它能够有效地将视觉外观与动作动力学解耦。通过利用预训练的视频扩散模型,dLDM可以专注于学习更紧凑和有意义的潜在代码,从而提高模型的泛化能力和推理能力。与现有方法相比,dLDM能够更好地处理真实世界视频中的复杂性和多样性。

关键设计:dLDM的关键设计包括:1) 使用预训练的视频扩散模型进行视觉特征提取;2) 设计合适的损失函数,鼓励潜在代码专注于动作动力学;3) 使用自回归模型进行长时推理,并优化相关参数以提高推理的连贯性。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VideoWorld 2在真实世界手工制作任务中,任务成功率提升高达70%。在机器人操作任务中,通过从Open-X数据集学习,显著提高了CALVIN数据集上的任务性能。这些实验结果表明,VideoWorld 2具有强大的泛化能力和实际应用潜力。

🎯 应用场景

该研究成果可应用于机器人操作、自动化装配、智能辅助等领域。通过从真实世界视频中学习可迁移知识,机器人可以更好地理解和执行复杂任务,提高生产效率和智能化水平。未来,该技术有望扩展到更多领域,例如自动驾驶、智能监控等。

📄 摘要(原文)

Learning transferable knowledge from unlabeled video data and applying it in new environments is a fundamental capability of intelligent agents. This work presents VideoWorld 2, which extends VideoWorld and offers the first investigation into learning transferable knowledge directly from raw real-world videos. At its core, VideoWorld 2 introduces a dynamic-enhanced Latent Dynamics Model (dLDM) that decouples action dynamics from visual appearance: a pretrained video diffusion model handles visual appearance modeling, enabling the dLDM to learn latent codes that focus on compact and meaningful task-related dynamics. These latent codes are then modeled autoregressively to learn task policies and support long-horizon reasoning. We evaluate VideoWorld 2 on challenging real-world handcraft making tasks, where prior video generation and latent-dynamics models struggle to operate reliably. Remarkably, VideoWorld 2 achieves up to 70% improvement in task success rate and produces coherent long execution videos. In robotics, we show that VideoWorld 2 can acquire effective manipulation knowledge from the Open-X dataset, which substantially improves task performance on CALVIN. This study reveals the potential of learning transferable world knowledge directly from raw videos, with all code, data, and models to be open-sourced for further research.