VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control

📄 arXiv: 2601.05138v1 📥 PDF

作者: Sixiao Zheng, Minghao Yin, Wenbo Hu, Xiaoyu Li, Ying Shan, Yanwei Fu

分类: cs.CV

发布日期: 2026-01-08

备注: Project Page: https://sixiaozheng.github.io/VerseCrafter_page/


💡 一句话要点

VerseCrafter:提出4D几何控制的动态真实视频世界模型,实现相机和多物体运动的精确控制。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频世界模型 4D几何控制 动态视频生成 3D高斯轨迹 视频扩散模型

📋 核心要点

  1. 现有视频世界模型难以在统一框架下精确控制相机和多物体的运动,这是由于视频固有的2D投影特性造成的。
  2. VerseCrafter提出了一种4D几何控制表示,利用静态背景点云和3D高斯轨迹来编码世界状态,实现对相机和物体动态的显式控制。
  3. 该方法通过自动数据引擎从真实视频中提取4D控制信息,从而在大规模数据集上训练模型,生成高质量、视图一致的视频。

📝 摘要(中文)

视频世界模型旨在模拟动态的真实世界环境,但现有方法难以对相机和多物体运动提供统一且精确的控制,因为视频本质上是在投影的2D图像平面中运行动态的。为了弥合这一差距,我们引入了VerseCrafter,一个4D感知的视频世界模型,它能够在统一的4D几何世界状态中对相机和物体动态进行显式和连贯的控制。我们的方法以一种新颖的4D几何控制表示为中心,该表示通过静态背景点云和每个物体的3D高斯轨迹来编码世界状态。这种表示不仅捕获了物体的路径,还捕获了其随时间的概率3D占用,为刚性边界框或参数模型提供了一种灵活的、类别无关的替代方案。这些4D控制被渲染成预训练视频扩散模型的条件信号,从而能够生成高保真、视图一致的视频,这些视频精确地遵循指定的动态。另一个主要的挑战在于缺乏具有显式4D注释的大规模训练数据。我们通过开发一种自动数据引擎来解决这个问题,该引擎从真实视频中提取所需的4D控制,从而使我们能够在庞大而多样的数据集上训练我们的模型。

🔬 方法详解

问题定义:现有视频世界模型难以对相机和多物体运动进行统一且精确的控制。视频数据本质上是2D图像的序列,缺乏对3D空间中物体运动的直接表示,导致难以实现对场景动态的精细控制。现有方法通常依赖于刚性边界框或参数模型,缺乏灵活性和类别泛化能力。

核心思路:VerseCrafter的核心思路是构建一个4D感知的视频世界模型,通过显式地建模场景中的几何和运动信息,实现对相机和物体动态的精确控制。该方法利用一种新颖的4D几何控制表示,将场景表示为静态背景点云和每个物体的3D高斯轨迹,从而捕获物体随时间的3D占用概率。

技术框架:VerseCrafter的整体框架包括以下几个主要阶段:1) 4D几何控制表示:使用静态背景点云和3D高斯轨迹来编码世界状态。2) 自动数据引擎:从真实视频中提取4D控制信息,用于模型训练。3) 视频扩散模型:将4D控制作为条件信号,生成高保真、视图一致的视频。

关键创新:VerseCrafter最重要的技术创新点在于其4D几何控制表示。与传统的刚性边界框或参数模型相比,该表示具有更高的灵活性和类别泛化能力,能够更精确地捕获物体随时间的3D运动轨迹。此外,自动数据引擎的开发解决了缺乏大规模4D标注数据的难题。

关键设计:3D高斯轨迹使用高斯分布来表示物体在每个时间步的3D位置和形状,从而捕获物体的不确定性。自动数据引擎利用现有的视觉算法(例如,物体检测、姿态估计)来提取4D控制信息,并采用数据增强技术来提高模型的鲁棒性。视频扩散模型采用U-Net架构,并将4D控制信息作为条件输入,引导视频生成过程。

📊 实验亮点

论文提出的VerseCrafter模型在动态视频生成任务上取得了显著的成果。通过4D几何控制表示和自动数据引擎,该模型能够生成高保真、视图一致的视频,并精确地遵循指定的动态。实验结果表明,VerseCrafter在生成视频的真实性和可控性方面优于现有的视频世界模型。

🎯 应用场景

VerseCrafter具有广泛的应用前景,包括虚拟现实、增强现实、游戏开发、电影制作等领域。它可以用于生成逼真的虚拟环境,模拟复杂的物理交互,以及创建具有高度可控性的视频内容。该技术还有潜力应用于机器人导航、自动驾驶等领域,为智能系统提供更准确的环境感知能力。

📄 摘要(原文)

Video world models aim to simulate dynamic, real-world environments, yet existing methods struggle to provide unified and precise control over camera and multi-object motion, as videos inherently operate dynamics in the projected 2D image plane. To bridge this gap, we introduce VerseCrafter, a 4D-aware video world model that enables explicit and coherent control over both camera and object dynamics within a unified 4D geometric world state. Our approach is centered on a novel 4D Geometric Control representation, which encodes the world state through a static background point cloud and per-object 3D Gaussian trajectories. This representation captures not only an object's path but also its probabilistic 3D occupancy over time, offering a flexible, category-agnostic alternative to rigid bounding boxes or parametric models. These 4D controls are rendered into conditioning signals for a pretrained video diffusion model, enabling the generation of high-fidelity, view-consistent videos that precisely adhere to the specified dynamics. Unfortunately, another major challenge lies in the scarcity of large-scale training data with explicit 4D annotations. We address this by developing an automatic data engine that extracts the required 4D controls from in-the-wild videos, allowing us to train our model on a massive and diverse dataset.