DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos

📄 arXiv: 2405.02280v2 📥 PDF

作者: Wen-Hsuan Chu, Lei Ke, Katerina Fragkiadaki

分类: cs.CV

发布日期: 2024-05-03 (更新: 2024-05-23)

备注: Project page: https://dreamscene4d.github.io/


💡 一句话要点

DreamScene4D:提出一种从单目视频生成动态多对象3D场景的方法。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 动态场景生成 单目视频 3D重建 神经渲染 对象跟踪 运动分解 视角合成

📋 核心要点

  1. 现有方法难以从单目视频中重建复杂动态多对象场景,尤其是在快速运动和遮挡情况下,渲染误差梯度不足以恢复运动。
  2. DreamScene4D采用“分解-重组”策略,将场景分解为背景和对象轨迹,并进一步分解对象运动,从而简化优化问题。
  3. 实验表明,DreamScene4D在DAVIS、Kubric等数据集上表现出色,能够生成高质量的动态3D场景,并实现精确的2D点跟踪。

📝 摘要(中文)

本文提出DreamScene4D,一种从单目视频生成多对象动态3D场景的首创方法,并能进行360度视角合成。核心思想是“分解-重组”方法,将视频场景分解为背景和对象轨迹,同时将对象运动分解为三个组成部分:对象中心形变、对象到世界坐标系的变换以及相机运动。这种分解使得渲染误差梯度和对象视角预测模型能够恢复对象的3D补全和形变,而边界框轨迹引导场景中较大的对象运动。在具有挑战性的DAVIS、Kubric和自采集视频上进行了大量实验,包括定量比较和用户偏好研究。除了4D场景生成,DreamScene4D还通过将推断的3D轨迹投影到2D来获得准确的2D持久点轨迹。代码将会开源,希望这项工作能够激发更多关于视频细粒度4D理解的研究。

🔬 方法详解

问题定义:现有方法在从单目视频中生成动态多对象3D场景时面临挑战。渲染误差梯度难以捕捉快速的对象运动,并且针对对象的视角预测生成模型难以直接应用于整个场景,导致基于分数蒸馏的目标函数无法有效优化复杂场景。

核心思路:DreamScene4D的核心思路是将复杂的动态场景分解为更易于处理的子问题。通过将场景分解为静态背景和动态对象,并进一步将对象运动分解为对象中心形变、对象到世界坐标系的变换以及相机运动,降低了优化难度。这种分解使得可以利用渲染误差梯度和对象视角预测模型来分别优化对象的3D形状和运动。

技术框架:DreamScene4D的整体框架包含以下几个主要模块:1) 视频分解模块,将视频分解为背景和对象轨迹;2) 对象运动分解模块,将对象运动分解为对象中心形变、对象到世界坐标系的变换以及相机运动;3) 3D重建模块,利用渲染误差梯度和对象视角预测模型重建对象的3D形状;4) 场景重组模块,将重建的3D对象和背景重新组合成动态3D场景。

关键创新:DreamScene4D的关键创新在于“分解-重组”策略,它将复杂的场景生成问题分解为多个更易于处理的子问题,从而能够有效地利用渲染误差梯度和对象视角预测模型。此外,该方法还通过分解对象运动,更好地处理了对象形变和全局运动。

关键设计:在视频分解模块中,使用了现有的对象跟踪算法来获取对象轨迹。在3D重建模块中,使用了可微分渲染器来计算渲染误差梯度,并利用对象视角预测模型来约束对象的3D形状。损失函数包括渲染损失、视角预测损失和正则化项,用于优化对象的3D形状和运动参数。具体网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DreamScene4D在DAVIS、Kubric和自采集视频数据集上进行了评估,结果表明该方法能够生成高质量的动态3D场景,并实现精确的2D点跟踪。用户偏好研究表明,DreamScene4D生成的场景在视觉质量上优于现有方法。定量实验结果也表明,DreamScene4D在3D重建精度和运动估计精度方面取得了显著提升。

🎯 应用场景

DreamScene4D具有广泛的应用前景,例如:虚拟现实/增强现实内容生成、机器人导航与场景理解、自动驾驶仿真环境构建、电影特效制作等。该技术能够从简单的单目视频中生成高质量的动态3D场景,极大地降低了3D内容制作的成本和门槛,并为相关领域的研究和应用提供了新的可能性。

📄 摘要(原文)

View-predictive generative models provide strong priors for lifting object-centric images and videos into 3D and 4D through rendering and score distillation objectives. A question then remains: what about lifting complete multi-object dynamic scenes? There are two challenges in this direction: First, rendering error gradients are often insufficient to recover fast object motion, and second, view predictive generative models work much better for objects than whole scenes, so, score distillation objectives cannot currently be applied at the scene level directly. We present DreamScene4D, the first approach to generate 3D dynamic scenes of multiple objects from monocular videos via 360-degree novel view synthesis. Our key insight is a "decompose-recompose" approach that factorizes the video scene into the background and object tracks, while also factorizing object motion into 3 components: object-centric deformation, object-to-world-frame transformation, and camera motion. Such decomposition permits rendering error gradients and object view-predictive models to recover object 3D completions and deformations while bounding box tracks guide the large object movements in the scene. We show extensive results on challenging DAVIS, Kubric, and self-captured videos with quantitative comparisons and a user preference study. Besides 4D scene generation, DreamScene4D obtains accurate 2D persistent point track by projecting the inferred 3D trajectories to 2D. We will release our code and hope our work will stimulate more research on fine-grained 4D understanding from videos.