VideoWorld 2: Learning Transferable Knowledge from Real-world Videos

作者: Zhongwei Ren, Yunchao Wei, Xiao Yu, Guixun Luo, Yao Zhao, Bingyi Kang, Jiashi Feng, Xiaojie Jin

分类: cs.CV

发布日期: 2026-02-10

备注: Code and models are released at: https://maverickren.github.io/VideoWorld2.github.io/

💡 一句话要点

VideoWorld 2：提出动态增强潜在动力学模型，从真实视频中学习可迁移知识

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视频理解 可迁移学习 潜在动力学模型 机器人操作 长时推理

📋 核心要点

现有方法难以从真实世界视频中学习可迁移知识，限制了智能体在复杂环境中的应用。
提出动态增强潜在动力学模型（dLDM），解耦视觉外观与动作动力学，学习紧凑的任务相关潜在代码。
在手工制作和机器人操作任务上，VideoWorld 2显著提升了任务成功率和长时推理能力。

📝 摘要（中文）

本文提出了VideoWorld 2，旨在研究直接从原始真实世界视频中学习可迁移知识。VideoWorld 2引入了一种动态增强的潜在动力学模型（dLDM），该模型将动作动力学与视觉外观解耦：预训练的视频扩散模型处理视觉外观建模，使dLDM能够学习专注于紧凑且有意义的任务相关动力学的潜在代码。然后，自回归地对这些潜在代码进行建模，以学习任务策略并支持长时推理。在具有挑战性的真实手工制作任务中评估了VideoWorld 2，在这些任务中，先前的视频生成和潜在动力学模型难以可靠地运行。值得注意的是，VideoWorld 2在任务成功率方面实现了高达70％的提升，并产生了连贯的长执行视频。在机器人技术中，表明VideoWorld 2可以从Open-X数据集中获取有效的操作知识，从而显着提高CALVIN上的任务性能。这项研究揭示了直接从原始视频中学习可迁移世界知识的潜力，所有代码、数据和模型都将开源，以供进一步研究。

🔬 方法详解

问题定义：现有方法难以直接从原始真实世界视频中学习可迁移知识，尤其是在视觉复杂、动作多样的场景下。先前的视频生成和潜在动力学模型在处理真实世界任务时，往往面临泛化能力不足、推理不连贯等问题。

核心思路：核心在于解耦视频中的视觉外观和动作动力学。通过预训练的视频扩散模型处理视觉外观，使得后续的潜在动力学模型可以专注于学习与任务相关的、更紧凑和有意义的潜在代码。这种解耦的设计使得模型能够更好地泛化到新的环境和任务。

技术框架：VideoWorld 2的核心是动态增强的潜在动力学模型（dLDM）。整体流程包括：1) 使用预训练的视频扩散模型对输入视频进行编码，提取视觉特征；2) dLDM学习潜在代码，这些代码专注于动作动力学；3) 使用自回归模型对这些潜在代码进行建模，学习任务策略，并支持长时推理。

关键创新：关键创新在于动态增强的潜在动力学模型（dLDM），它能够有效地将视觉外观与动作动力学解耦。通过利用预训练的视频扩散模型，dLDM可以专注于学习更紧凑和有意义的潜在代码，从而提高模型的泛化能力和推理能力。与现有方法相比，dLDM能够更好地处理真实世界视频中的复杂性和多样性。

关键设计：dLDM的关键设计包括：1) 使用预训练的视频扩散模型进行视觉特征提取；2) 设计合适的损失函数，鼓励潜在代码专注于动作动力学；3) 使用自回归模型进行长时推理，并优化相关参数以提高推理的连贯性。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

VideoWorld 2在真实世界手工制作任务中，任务成功率提升高达70%。在机器人操作任务中，通过从Open-X数据集学习，显著提高了CALVIN数据集上的任务性能。这些实验结果表明，VideoWorld 2具有强大的泛化能力和实际应用潜力。

🎯 应用场景

该研究成果可应用于机器人操作、自动化装配、智能辅助等领域。通过从真实世界视频中学习可迁移知识，机器人可以更好地理解和执行复杂任务，提高生产效率和智能化水平。未来，该技术有望扩展到更多领域，例如自动驾驶、智能监控等。

📄 摘要（原文）

Learning transferable knowledge from unlabeled video data and applying it in new environments is a fundamental capability of intelligent agents. This work presents VideoWorld 2, which extends VideoWorld and offers the first investigation into learning transferable knowledge directly from raw real-world videos. At its core, VideoWorld 2 introduces a dynamic-enhanced Latent Dynamics Model (dLDM) that decouples action dynamics from visual appearance: a pretrained video diffusion model handles visual appearance modeling, enabling the dLDM to learn latent codes that focus on compact and meaningful task-related dynamics. These latent codes are then modeled autoregressively to learn task policies and support long-horizon reasoning. We evaluate VideoWorld 2 on challenging real-world handcraft making tasks, where prior video generation and latent-dynamics models struggle to operate reliably. Remarkably, VideoWorld 2 achieves up to 70% improvement in task success rate and produces coherent long execution videos. In robotics, we show that VideoWorld 2 can acquire effective manipulation knowledge from the Open-X dataset, which substantially improves task performance on CALVIN. This study reveals the potential of learning transferable world knowledge directly from raw videos, with all code, data, and models to be open-sourced for further research.

VideoWorld 2: Learning Transferable Knowledge from Real-world Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理