Splatography: Sparse multi-view dynamic Gaussian Splatting for filmmaking challenges

📄 arXiv: 2511.05152v1 📥 PDF

作者: Adrian Azzarelli, Nantheera Anantrasirichai, David R Bull

分类: cs.CV, cs.GR, cs.MM

发布日期: 2025-11-07


💡 一句话要点

Splatography:稀疏多视角动态高斯溅射,应对电影制作挑战

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 动态高斯溅射 稀疏多视角 3D重建 电影制作 前景背景分割

📋 核心要点

  1. 现有动态高斯溅射方法在电影制作等稀疏多视角场景下,难以捕捉复杂的动态特征。
  2. 提出Splatography,将高斯和变形场分为前景和背景,分别训练并建模不同参数,适应电影制作流程。
  3. 实验表明,该方法在3D场景中PSNR提升高达3,模型大小减半,并能生成分割的动态重建。

📝 摘要(中文)

可变形高斯溅射(GS)通过学习变形规范GS表示,从密集多视角视频(MVV)中实现逼真的动态3D重建。然而,在电影制作中,预算紧张可能导致稀疏的相机配置,这限制了最先进(SotA)方法捕捉复杂动态特征的能力。为了解决这个问题,我们提出了一种方法,该方法使用t=0时帧的稀疏掩码集将规范高斯和变形场分割成前景和背景组件。每个表示在规范预训练期间接受不同损失函数的单独训练。然后,在动态训练期间,遵循常见的电影制作实践,为每个变形场建模不同的参数。前景阶段包含各种动态特征,因此学习颜色、位置和旋转的变化。而包含电影工作人员和设备的背景通常较暗且动态较小,因此仅学习点位置的变化。在3D和2.5D娱乐数据集上的实验表明,我们的方法产生了SotA的定性和定量结果;在3D场景中,PSNR提高了3,模型大小减小了一半。与SotA不同,并且无需密集的掩码监督,我们的方法还生成了分割的动态重建,包括透明和动态纹理。

🔬 方法详解

问题定义:论文旨在解决在电影制作等场景下,由于相机配置稀疏,现有动态高斯溅射方法难以从多视角视频中重建高质量动态3D模型的问题。现有方法通常需要密集的相机视图,但在预算有限的电影制作中,难以满足这一条件,导致重建效果不佳,尤其是在处理复杂动态特征时。

核心思路:论文的核心思路是将场景分解为前景和背景,并对它们进行差异化处理。前景通常包含主要的动态对象和复杂运动,而背景则相对静态,可能包含工作人员和设备。通过这种分解,可以针对性地优化每个部分的重建过程,从而在稀疏视图下也能获得更好的结果。

技术框架:整体框架包含两个主要阶段:规范预训练和动态训练。在规范预训练阶段,使用稀疏掩码将高斯和变形场分割为前景和背景组件,并使用不同的损失函数分别训练它们。在动态训练阶段,为前景和背景的变形场建模不同的参数。前景学习颜色、位置和旋转的变化,而背景仅学习位置的变化。

关键创新:最重要的创新点在于将场景分解为前景和背景,并对它们进行差异化建模。这种方法允许针对每个部分使用不同的损失函数和参数化方案,从而更有效地利用稀疏的视图信息。此外,该方法无需密集的掩码监督,降低了数据标注的成本。

关键设计:关键设计包括:1) 使用稀疏掩码进行前景/背景分割;2) 在规范预训练阶段使用不同的损失函数训练前景和背景;3) 在动态训练阶段,前景学习颜色、位置和旋转的变化,而背景仅学习位置的变化;4) 遵循电影制作实践,对前景和背景的变形场进行不同的参数建模。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在3D和2.5D娱乐数据集上取得了最先进的定性和定量结果。在3D场景中,PSNR提高了3,模型大小减小了一半。此外,该方法还能够生成分割的动态重建,包括透明和动态纹理,而无需密集的掩码监督。这些结果表明,该方法在稀疏多视角动态3D重建方面具有显著优势。

🎯 应用场景

该研究成果可应用于电影制作、虚拟现实、增强现实等领域。通过稀疏多视角视频重建高质量的动态3D模型,可以降低拍摄成本,提高制作效率,并为用户提供更逼真的沉浸式体验。此外,该方法还可以用于动态场景的分割和编辑,为后期制作提供更多可能性。

📄 摘要(原文)

Deformable Gaussian Splatting (GS) accomplishes photorealistic dynamic 3-D reconstruction from dense multi-view video (MVV) by learning to deform a canonical GS representation. However, in filmmaking, tight budgets can result in sparse camera configurations, which limits state-of-the-art (SotA) methods when capturing complex dynamic features. To address this issue, we introduce an approach that splits the canonical Gaussians and deformation field into foreground and background components using a sparse set of masks for frames at t=0. Each representation is separately trained on different loss functions during canonical pre-training. Then, during dynamic training, different parameters are modeled for each deformation field following common filmmaking practices. The foreground stage contains diverse dynamic features so changes in color, position and rotation are learned. While, the background containing film-crew and equipment, is typically dimmer and less dynamic so only changes in point position are learned. Experiments on 3-D and 2.5-D entertainment datasets show that our method produces SotA qualitative and quantitative results; up to 3 PSNR higher with half the model size on 3-D scenes. Unlike the SotA and without the need for dense mask supervision, our method also produces segmented dynamic reconstructions including transparent and dynamic textures. Code and video comparisons are available online: https://interims-git.github.io/