Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis
作者: Basile Van Hoorick, Rundi Wu, Ege Ozguroglu, Kyle Sargent, Ruoshi Liu, Pavel Tokmakov, Achal Dave, Changxi Zheng, Carl Vondrick
分类: cs.CV, cs.AI, cs.LG, cs.RO
发布日期: 2024-05-23 (更新: 2024-07-05)
备注: Accepted to ECCV 2024. Project webpage is available at: https://gcd.cs.columbia.edu/
💡 一句话要点
GCD:利用扩散先验的单目动态新视角合成
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 动态新视角合成 单目视频 扩散模型 视频生成 零样本泛化
📋 核心要点
- 现有动态新视角合成方法依赖多视角视频,限制了其在真实场景和机器人领域的应用。
- GCD利用大规模扩散先验,通过端到端视频转换,实现单目动态新视角的合成,无需深度信息。
- 实验表明,GCD在合成数据训练后,在机器人、物体永久性和驾驶等真实场景中表现出良好的泛化能力。
📝 摘要(中文)
从单一视角精确重建复杂动态场景仍然是计算机视觉领域的一项挑战。现有的动态新视角合成方法通常需要来自多个摄像机视角的视频,这需要精心的记录设置,并显著限制了它们在实际应用以及具身人工智能应用中的效用。本文提出了GCD,一个可控的单目动态视角合成流程,它利用大规模扩散先验,给定任何场景的视频,生成来自任何其他选定视角的同步视频,并以一组相对相机姿态参数为条件。我们的模型不需要深度作为输入,也不显式地建模3D场景几何,而是执行端到端的视频到视频的转换,以有效地实现其目标。尽管仅在合成多视角视频数据上进行训练,但零样本真实世界泛化实验在包括机器人、物体永久性和驾驶环境在内的多个领域显示出有希望的结果。我们相信我们的框架可以潜在地释放强大的应用,包括丰富的动态场景理解、机器人感知以及用于虚拟现实的交互式3D视频观看体验。
🔬 方法详解
问题定义:现有的动态新视角合成方法通常需要从多个相机视角获取视频,这在实际应用中受到限制,尤其是在缺乏多视角数据或难以进行精确校准的情况下。这些方法难以应用于真实世界的动态场景,也限制了其在机器人和具身智能领域的应用。因此,如何仅使用单目视频实现高质量的动态新视角合成是一个关键问题。
核心思路:本文的核心思路是利用大规模扩散模型强大的生成能力,直接从单目视频中学习动态场景的表示,并生成新的视角。通过将新视角合成问题转化为视频到视频的转换问题,避免了显式地建模3D场景几何,从而简化了流程并提高了效率。
技术框架:GCD的整体框架是一个端到端的视频到视频的转换模型。该模型以单目视频和相对相机姿态参数作为输入,输出从新视角观察到的同步视频。该框架主要包含一个视频编码器,用于提取输入视频的特征;一个姿态编码器,用于编码相对相机姿态;以及一个扩散模型,用于生成新视角的视频。扩散模型以视频编码器和姿态编码器的输出为条件,逐步生成新视角的视频帧。
关键创新:GCD最重要的创新点在于它利用了大规模扩散模型作为生成器,从而能够生成高质量、逼真的新视角视频。与传统的基于几何的方法相比,GCD不需要显式地建模3D场景几何,而是通过学习数据中的统计规律来实现新视角的合成。此外,GCD还采用了端到端的训练方式,从而能够更好地优化整个流程。
关键设计:GCD的关键设计包括:1) 使用大规模视频数据集预训练的扩散模型,以提高生成视频的质量;2) 使用相对相机姿态作为条件,以控制新视角的位置和方向;3) 使用对抗训练来进一步提高生成视频的逼真度;4) 损失函数包括L1损失、感知损失和对抗损失,以保证生成视频的质量和逼真度。
🖼️ 关键图片
📊 实验亮点
GCD在多个真实世界场景中进行了零样本泛化实验,包括机器人、物体永久性和驾驶环境。实验结果表明,GCD能够生成高质量、逼真的新视角视频,即使在没有经过特定场景训练的情况下也能表现出良好的泛化能力。虽然论文中没有提供具体的性能数据,但定性结果表明GCD在动态新视角合成方面取得了显著进展。
🎯 应用场景
GCD具有广泛的应用前景,包括机器人感知、虚拟现实、自动驾驶等领域。在机器人感知方面,GCD可以帮助机器人理解周围环境的动态变化,从而更好地进行导航和交互。在虚拟现实方面,GCD可以生成逼真的3D视频,从而提供更沉浸式的体验。在自动驾驶方面,GCD可以帮助车辆理解周围环境的动态变化,从而提高驾驶安全性。
📄 摘要(原文)
Accurate reconstruction of complex dynamic scenes from just a single viewpoint continues to be a challenging task in computer vision. Current dynamic novel view synthesis methods typically require videos from many different camera viewpoints, necessitating careful recording setups, and significantly restricting their utility in the wild as well as in terms of embodied AI applications. In this paper, we propose $\textbf{GCD}$, a controllable monocular dynamic view synthesis pipeline that leverages large-scale diffusion priors to, given a video of any scene, generate a synchronous video from any other chosen perspective, conditioned on a set of relative camera pose parameters. Our model does not require depth as input, and does not explicitly model 3D scene geometry, instead performing end-to-end video-to-video translation in order to achieve its goal efficiently. Despite being trained on synthetic multi-view video data only, zero-shot real-world generalization experiments show promising results in multiple domains, including robotics, object permanence, and driving environments. We believe our framework can potentially unlock powerful applications in rich dynamic scene understanding, perception for robotics, and interactive 3D video viewing experiences for virtual reality.