GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking
作者: Weikang Bian, Zhaoyang Huang, Xiaoyu Shi, Yijin Li, Fu-Yun Wang, Hongsheng Li
分类: cs.CV
发布日期: 2025-01-05
备注: Project Page: https://wkbian.github.io/Projects/GS-DiT/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
GS-DiT:通过高效稠密3D点追踪和伪4D高斯场推进视频生成
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 视频生成 4D控制 高斯场 扩散模型 3D点追踪 深度学习 计算机视觉
📋 核心要点
- 现有视频生成方法难以支持多相机拍摄和滑轨变焦等复杂的4D视频控制技术。
- GS-DiT通过稠密3D点追踪构建伪4D高斯场,并利用渲染视频指导预训练的DiT进行视频生成。
- 提出的D3D-PT方法在精度和速度上均优于现有方法,GS-DiT能够生成具有4D可控性的高质量视频。
📝 摘要(中文)
本文提出了一种名为GS-DiT的视频生成框架,旨在通过伪4D高斯场实现对视频的4D控制,从而支持多相机拍摄和滑轨变焦等复杂镜头技术。该方法利用稠密3D点追踪构建伪4D高斯场,并渲染视频帧,然后微调预训练的Diffusion Transformer (DiT)以生成符合渲染视频指导的视频。为了加速GS-DiT的训练,本文还提出了一种高效的稠密3D点追踪(D3D-PT)方法,该方法在精度上优于最先进的稀疏3D点追踪方法SpatialTracker,并将推理速度提高了两个数量级。在推理阶段,GS-DiT能够在保持动态内容不变的情况下,根据不同的相机参数生成视频,突破了现有视频生成模型的局限性。GS-DiT展示了强大的泛化能力,并将高斯溅射的4D可控性扩展到视频生成,超越了相机姿态的控制,支持通过操纵高斯场和相机内参实现高级电影效果。
🔬 方法详解
问题定义:现有视频生成模型缺乏对4D视频内容的精细控制能力,无法支持多相机拍摄、滑轨变焦等高级电影效果。直接训练DiT模型控制4D内容需要昂贵的多视角视频数据,成本高昂。
核心思路:借鉴单目动态新视角合成(MDVS)的思想,构建伪4D高斯场来表示视频内容,通过控制高斯场和相机参数来实现对视频的4D控制。利用预训练的DiT模型,通过渲染视频的指导,生成具有所需4D属性的视频。
技术框架:GS-DiT框架主要包含两个阶段:1) 伪4D高斯场构建阶段:使用提出的高效稠密3D点追踪(D3D-PT)方法,从视频中提取稠密的3D点云,并构建伪4D高斯场。2) 视频生成阶段:将高斯场渲染成视频帧,然后使用渲染的视频帧作为条件,微调预训练的DiT模型,生成最终的视频。
关键创新:1) 提出了基于稠密3D点追踪的伪4D高斯场表示方法,能够有效地捕捉视频中的动态信息,并实现对视频的4D控制。2) 提出了高效的稠密3D点追踪(D3D-PT)方法,该方法在精度和速度上均优于现有方法,显著提升了高斯场构建的效率。
关键设计:D3D-PT方法采用了一种基于光流和深度信息的迭代优化策略,能够准确地追踪视频中的3D点。在DiT微调阶段,使用了渲染的视频帧作为条件输入,并设计了合适的损失函数,以保证生成的视频与渲染视频的一致性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GS-DiT能够生成具有高质量和4D可控性的视频。提出的D3D-PT方法在精度上优于SpatialTracker,推理速度提高了两个数量级。GS-DiT能够根据不同的相机参数生成视频,并支持通过操纵高斯场和相机内参实现高级电影效果。该方法在多个数据集上进行了评估,并取得了显著的性能提升。
🎯 应用场景
GS-DiT在电影制作、游戏开发、虚拟现实等领域具有广泛的应用前景。它可以用于生成具有复杂相机运动和物体运动的视频内容,实现高级电影特效,并为用户提供更加沉浸式的虚拟现实体验。此外,GS-DiT还可以用于视频编辑和修复,例如,可以用于修复视频中的抖动和模糊,或者改变视频的视角和光照。
📄 摘要(原文)
4D video control is essential in video generation as it enables the use of sophisticated lens techniques, such as multi-camera shooting and dolly zoom, which are currently unsupported by existing methods. Training a video Diffusion Transformer (DiT) directly to control 4D content requires expensive multi-view videos. Inspired by Monocular Dynamic novel View Synthesis (MDVS) that optimizes a 4D representation and renders videos according to different 4D elements, such as camera pose and object motion editing, we bring pseudo 4D Gaussian fields to video generation. Specifically, we propose a novel framework that constructs a pseudo 4D Gaussian field with dense 3D point tracking and renders the Gaussian field for all video frames. Then we finetune a pretrained DiT to generate videos following the guidance of the rendered video, dubbed as GS-DiT. To boost the training of the GS-DiT, we also propose an efficient Dense 3D Point Tracking (D3D-PT) method for the pseudo 4D Gaussian field construction. Our D3D-PT outperforms SpatialTracker, the state-of-the-art sparse 3D point tracking method, in accuracy and accelerates the inference speed by two orders of magnitude. During the inference stage, GS-DiT can generate videos with the same dynamic content while adhering to different camera parameters, addressing a significant limitation of current video generation models. GS-DiT demonstrates strong generalization capabilities and extends the 4D controllability of Gaussian splatting to video generation beyond just camera poses. It supports advanced cinematic effects through the manipulation of the Gaussian field and camera intrinsics, making it a powerful tool for creative video production. Demos are available at https://wkbian.github.io/Projects/GS-DiT/.