MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds
作者: Jiahui Lei, Yijia Weng, Adam Harley, Leonidas Guibas, Kostas Daniilidis
分类: cs.CV, cs.GR
发布日期: 2024-05-27 (更新: 2024-11-29)
备注: project page: https://www.cis.upenn.edu/~leijh/projects/mosca code release: https://github.com/JiahuiLei/MoSca
💡 一句话要点
提出MoSca,通过4D运动支架从单目视频重建动态场景并合成新视角。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 动态场景重建 4D重建 运动支架 高斯溅射 单目视频 新视角合成 光束法平差
📋 核心要点
- 现有动态场景重建方法难以处理野外随意拍摄的单目视频,面临视角变化大、遮挡严重等挑战。
- MoSca通过构建4D运动支架,紧凑编码场景的运动和变形,解耦几何、外观和运动信息。
- 实验表明,MoSca在动态渲染任务上取得了SOTA性能,并在真实场景视频中表现出良好的重建效果。
📝 摘要(中文)
本文提出了一种名为4D运动支架(MoSca)的现代4D重建系统,旨在从野外随意拍摄的单目视频中重建动态场景并合成新视角。为了解决这个具有挑战性和不适定的逆问题,我们利用了基础视觉模型的先验知识,并将视频数据提升到一个新的运动支架(MoSca)表示,该表示紧凑而平滑地编码了潜在的运动/变形。然后,场景几何和外观与变形场分离,并通过全局融合锚定在MoSca上的高斯分布进行编码,并通过高斯溅射进行优化。此外,可以使用光束法平差来求解相机焦距和姿势,而无需任何其他姿势估计工具。实验表明,该方法在动态渲染基准测试中表现出最先进的性能,并且在真实视频中也有效。
🔬 方法详解
问题定义:现有动态场景重建方法在处理从单目视频中重建动态场景时,尤其是在野外随意拍摄的视频中,面临着视角变化大、遮挡严重、缺乏精确的相机姿态等问题。这些问题导致重建质量差,难以生成高质量的新视角图像。现有的方法通常依赖于精确的相机姿态估计或复杂的优化过程,计算成本高昂,且泛化能力有限。
核心思路:MoSca的核心思路是将视频数据提升到一个新的4D运动支架(Motion Scaffold)表示。这个运动支架能够紧凑而平滑地编码场景的潜在运动和变形。通过解耦场景的几何、外观和运动信息,可以更有效地进行重建和新视角合成。利用高斯溅射技术,可以实现高质量的渲染效果。
技术框架:MoSca系统的整体框架包括以下几个主要阶段:1) 利用基础视觉模型提取视频特征;2) 构建4D运动支架,编码场景的运动和变形;3) 将场景几何和外观与变形场分离,并用锚定在MoSca上的高斯分布进行编码;4) 使用高斯溅射技术进行渲染;5) 使用光束法平差(Bundle Adjustment)优化相机焦距和姿态。
关键创新:MoSca的关键创新在于提出了4D运动支架(Motion Scaffold)的概念,并将其应用于动态场景重建。与传统的基于体素或网格的表示方法相比,MoSca能够更紧凑、更平滑地编码场景的运动和变形。此外,MoSca还能够自动优化相机姿态,无需依赖外部的姿态估计工具。
关键设计:MoSca的关键设计包括:1) 使用高斯分布来表示场景的几何和外观,并将其锚定在运动支架上;2) 使用光束法平差来优化相机姿态和场景结构;3) 设计了一种损失函数,用于鼓励运动支架的平滑性;4) 利用基础视觉模型提取视频特征,为运动支架的构建提供先验信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MoSca在动态渲染基准测试中取得了state-of-the-art的性能。与现有方法相比,MoSca在重建质量和渲染效果方面均有显著提升。此外,MoSca在真实视频上的实验结果也表明,该方法具有良好的泛化能力和鲁棒性。具体性能数据未知,但论文强调了其在动态渲染基准测试中的领先地位。
🎯 应用场景
MoSca技术可应用于虚拟现实(VR)、增强现实(AR)、电影特效、游戏开发等领域。例如,可以利用MoSca从普通手机拍摄的视频中重建出高质量的动态3D场景,用于VR/AR体验。该技术还可以用于创建逼真的电影特效,或为游戏开发提供更真实的场景资源。未来,MoSca有望成为一种通用的动态场景重建工具,推动相关领域的发展。
📄 摘要(原文)
We introduce 4D Motion Scaffolds (MoSca), a modern 4D reconstruction system designed to reconstruct and synthesize novel views of dynamic scenes from monocular videos captured casually in the wild. To address such a challenging and ill-posed inverse problem, we leverage prior knowledge from foundational vision models and lift the video data to a novel Motion Scaffold (MoSca) representation, which compactly and smoothly encodes the underlying motions/deformations. The scene geometry and appearance are then disentangled from the deformation field and are encoded by globally fusing the Gaussians anchored onto the MoSca and optimized via Gaussian Splatting. Additionally, camera focal length and poses can be solved using bundle adjustment without the need of any other pose estimation tools. Experiments demonstrate state-of-the-art performance on dynamic rendering benchmarks and its effectiveness on real videos.