4C4D: 4 Camera 4D Gaussian Splatting

📄 arXiv: 2604.04063 📥 PDF

作者: Junsheng Zhou, Zhifan Yang, Liang Han, Wenyuan Zhang, Kanle Shi, Shenkun Xu, Yu-Shen Liu

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

提出4C4D框架,仅用四个相机实现高质量的动态场景4D高斯溅射重建。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 动态场景重建 4D高斯溅射 稀疏视角 神经衰减函数 几何建模 新视角渲染 计算机视觉

📋 核心要点

  1. 现有动态场景重建方法依赖于密集的相机阵列,成本高昂且不灵活,限制了应用场景。
  2. 4C4D通过引入神经衰减函数,增强了4D高斯溅射在稀疏视角下的几何建模能力,平衡了几何与外观学习。
  3. 实验表明,4C4D在稀疏视角数据集上显著优于现有技术,实现了更高质量的动态场景重建。

📝 摘要(中文)

本文旨在解决仅使用四个便携式相机拍摄的视频中恢复4D动态场景的挑战。学习对场景动态进行建模,以实现时间一致的新视角渲染是计算机图形学中的一项基础任务,而先前的工作通常需要使用由数十甚至数百个视角组成的相机阵列进行密集的多视角捕获。我们提出了4C4D,这是一个新颖的框架,能够从极稀疏相机的视频捕获中实现高保真度的4D高斯溅射。我们的关键见解在于,稀疏设置下的几何学习比外观建模困难得多。基于这一观察,我们引入了高斯不透明度上的神经衰减函数,以增强4D高斯的几何建模能力。这种设计通过鼓励4DGS梯度更多地关注几何学习,从而减轻了4DGS中几何和外观建模之间固有的不平衡。在具有不同相机重叠的稀疏视角数据集上进行的大量实验表明,4C4D优于现有技术。

🔬 方法详解

问题定义:现有方法在动态场景重建中,需要大量的相机阵列进行密集的多视角捕获,这限制了其在实际场景中的应用,例如使用少量便携式相机进行动态场景重建。在稀疏视角下,几何信息的缺失使得重建质量显著下降,尤其是在几何建模方面面临更大的挑战。

核心思路:论文的核心思路是,在稀疏视角下,几何建模比外观建模更加困难。因此,需要设计一种机制,使得模型在训练过程中更加关注几何信息的学习。通过引入神经衰减函数,动态调整高斯不透明度,从而引导梯度更多地关注几何学习,平衡几何和外观建模。

技术框架:4C4D框架基于4D高斯溅射(4DGS),主要包括以下几个阶段:1)使用少量相机(例如四个)捕获动态场景的视频;2)初始化4D高斯表示;3)使用神经衰减函数调整高斯不透明度,并进行渲染;4)通过优化高斯参数,最小化渲染图像与真实图像之间的差异,从而实现动态场景的重建。

关键创新:最关键的创新点在于引入了神经衰减函数,该函数作用于高斯不透明度,使得模型在训练初期更加关注几何信息的学习,而在训练后期则更加关注外观信息的学习。这种动态调整机制有效地解决了稀疏视角下几何建模困难的问题。与现有方法相比,4C4D不需要密集的相机阵列,并且能够实现更高质量的动态场景重建。

关键设计:神经衰减函数的具体形式未知,但其核心思想是根据训练的进程动态调整高斯不透明度。损失函数主要包括渲染图像与真实图像之间的差异,以及一些正则化项,用于约束高斯参数的分布。具体的网络结构和参数设置在论文中应该有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,4C4D在稀疏视角数据集上显著优于现有技术。具体性能数据未知,但论文强调了在不同相机重叠情况下,4C4D均能取得更好的重建效果。与现有方法相比,4C4D能够在仅使用四个相机的情况下,实现更高质量的动态场景重建。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、机器人导航、自动驾驶等领域。例如,可以使用少量相机快速重建动态场景,从而为用户提供沉浸式的VR/AR体验。此外,该技术还可以用于机器人导航,帮助机器人在动态环境中进行定位和路径规划。在自动驾驶领域,可以用于实时重建周围环境,提高驾驶安全性。

📄 摘要(原文)

This paper tackles the challenge of recovering 4D dynamic scenes from videos captured by as few as four portable cameras. Learning to model scene dynamics for temporally consistent novel-view rendering is a foundational task in computer graphics, where previous works often require dense multi-view captures using camera arrays of dozens or even hundreds of views. We propose \textbf{4C4D}, a novel framework that enables high-fidelity 4D Gaussian Splatting from video captures of extremely sparse cameras. Our key insight lies that the geometric learning under sparse settings is substantially more difficult than modeling appearance. Driven by this observation, we introduce a Neural Decaying Function on Gaussian opacities for enhancing the geometric modeling capability of 4D Gaussians. This design mitigates the inherent imbalance between geometry and appearance modeling in 4DGS by encouraging the 4DGS gradients to focus more on geometric learning. Extensive experiments across sparse-view datasets with varying camera overlaps show that 4C4D achieves superior performance over prior art. Project page at:this https URL.