VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control

作者: Sixiao Zheng, Minghao Yin, Wenbo Hu, Xiaoyu Li, Ying Shan, Yanwei Fu

分类: cs.CV

发布日期: 2026-01-08

备注: Project Page: https://sixiaozheng.github.io/VerseCrafter_page/

💡 一句话要点

VerseCrafter：提出4D几何控制的动态真实视频世界模型，实现相机和多物体运动的精确控制。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视频世界模型 4D几何控制 动态视频生成 3D高斯轨迹 视频扩散模型

📋 核心要点

现有视频世界模型难以在统一框架下精确控制相机和多物体的运动，这是由于视频固有的2D投影特性造成的。
VerseCrafter提出了一种4D几何控制表示，利用静态背景点云和3D高斯轨迹来编码世界状态，实现对相机和物体动态的显式控制。
该方法通过自动数据引擎从真实视频中提取4D控制信息，从而在大规模数据集上训练模型，生成高质量、视图一致的视频。

📝 摘要（中文）

视频世界模型旨在模拟动态的真实世界环境，但现有方法难以对相机和多物体运动提供统一且精确的控制，因为视频本质上是在投影的2D图像平面中运行动态的。为了弥合这一差距，我们引入了VerseCrafter，一个4D感知的视频世界模型，它能够在统一的4D几何世界状态中对相机和物体动态进行显式和连贯的控制。我们的方法以一种新颖的4D几何控制表示为中心，该表示通过静态背景点云和每个物体的3D高斯轨迹来编码世界状态。这种表示不仅捕获了物体的路径，还捕获了其随时间的概率3D占用，为刚性边界框或参数模型提供了一种灵活的、类别无关的替代方案。这些4D控制被渲染成预训练视频扩散模型的条件信号，从而能够生成高保真、视图一致的视频，这些视频精确地遵循指定的动态。另一个主要的挑战在于缺乏具有显式4D注释的大规模训练数据。我们通过开发一种自动数据引擎来解决这个问题，该引擎从真实视频中提取所需的4D控制，从而使我们能够在庞大而多样的数据集上训练我们的模型。

🔬 方法详解

问题定义：现有视频世界模型难以对相机和多物体运动进行统一且精确的控制。视频数据本质上是2D图像的序列，缺乏对3D空间中物体运动的直接表示，导致难以实现对场景动态的精细控制。现有方法通常依赖于刚性边界框或参数模型，缺乏灵活性和类别泛化能力。

核心思路：VerseCrafter的核心思路是构建一个4D感知的视频世界模型，通过显式地建模场景中的几何和运动信息，实现对相机和物体动态的精确控制。该方法利用一种新颖的4D几何控制表示，将场景表示为静态背景点云和每个物体的3D高斯轨迹，从而捕获物体随时间的3D占用概率。

技术框架：VerseCrafter的整体框架包括以下几个主要阶段：1) 4D几何控制表示：使用静态背景点云和3D高斯轨迹来编码世界状态。2) 自动数据引擎：从真实视频中提取4D控制信息，用于模型训练。3) 视频扩散模型：将4D控制作为条件信号，生成高保真、视图一致的视频。

关键创新：VerseCrafter最重要的技术创新点在于其4D几何控制表示。与传统的刚性边界框或参数模型相比，该表示具有更高的灵活性和类别泛化能力，能够更精确地捕获物体随时间的3D运动轨迹。此外，自动数据引擎的开发解决了缺乏大规模4D标注数据的难题。

关键设计：3D高斯轨迹使用高斯分布来表示物体在每个时间步的3D位置和形状，从而捕获物体的不确定性。自动数据引擎利用现有的视觉算法（例如，物体检测、姿态估计）来提取4D控制信息，并采用数据增强技术来提高模型的鲁棒性。视频扩散模型采用U-Net架构，并将4D控制信息作为条件输入，引导视频生成过程。

📊 实验亮点

论文提出的VerseCrafter模型在动态视频生成任务上取得了显著的成果。通过4D几何控制表示和自动数据引擎，该模型能够生成高保真、视图一致的视频，并精确地遵循指定的动态。实验结果表明，VerseCrafter在生成视频的真实性和可控性方面优于现有的视频世界模型。

🎯 应用场景

VerseCrafter具有广泛的应用前景，包括虚拟现实、增强现实、游戏开发、电影制作等领域。它可以用于生成逼真的虚拟环境，模拟复杂的物理交互，以及创建具有高度可控性的视频内容。该技术还有潜力应用于机器人导航、自动驾驶等领域，为智能系统提供更准确的环境感知能力。

📄 摘要（原文）

Video world models aim to simulate dynamic, real-world environments, yet existing methods struggle to provide unified and precise control over camera and multi-object motion, as videos inherently operate dynamics in the projected 2D image plane. To bridge this gap, we introduce VerseCrafter, a 4D-aware video world model that enables explicit and coherent control over both camera and object dynamics within a unified 4D geometric world state. Our approach is centered on a novel 4D Geometric Control representation, which encodes the world state through a static background point cloud and per-object 3D Gaussian trajectories. This representation captures not only an object's path but also its probabilistic 3D occupancy over time, offering a flexible, category-agnostic alternative to rigid bounding boxes or parametric models. These 4D controls are rendered into conditioning signals for a pretrained video diffusion model, enabling the generation of high-fidelity, view-consistent videos that precisely adhere to the specified dynamics. Unfortunately, another major challenge lies in the scarcity of large-scale training data with explicit 4D annotations. We address this by developing an automatic data engine that extracts the required 4D controls from in-the-wild videos, allowing us to train our model on a massive and diverse dataset.

VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理