Sparse4DGS: 4D Gaussian Splatting for Sparse-Frame Dynamic Scene Reconstruction

📄 arXiv: 2511.07122v1 📥 PDF

作者: Changyue Shi, Chuxiao Yang, Xinyuan Hu, Minghao Chen, Wenwen Pan, Yan Yang, Jiajun Ding, Zhou Yu, Jun Yu

分类: cs.CV

发布日期: 2025-11-10

备注: AAAI 2026


💡 一句话要点

Sparse4DGS:提出纹理感知正则化与优化,解决稀疏帧动态场景的4D高斯重建问题。

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 动态场景重建 4D高斯溅射 稀疏帧 纹理感知 形变正则化

📋 核心要点

  1. 现有动态高斯溅射方法依赖密集帧视频序列,在稀疏帧场景下重建效果不佳,尤其在纹理丰富区域。
  2. Sparse4DGS通过纹理感知形变正则化和纹理感知规范优化,提升纹理丰富区域的重建质量。
  3. 实验表明,Sparse4DGS在稀疏帧输入下,优于现有动态或少样本NeRF方法,并在多个数据集上取得SOTA结果。

📝 摘要(中文)

本文提出Sparse4DGS,一种用于稀疏帧动态场景重建的首创方法。研究发现,在稀疏帧条件下,动态重建方法在规范空间和形变空间均表现不佳,尤其是在纹理丰富的区域。Sparse4DGS通过关注纹理丰富的区域来解决这一挑战。针对形变网络,提出了纹理感知形变正则化,引入基于纹理的深度对齐损失来约束高斯形变。针对规范高斯场,引入了纹理感知规范优化,将基于纹理的噪声融入规范高斯的梯度下降过程中。大量实验表明,在以稀疏帧作为输入时,该方法在NeRF-Synthetic、HyperNeRF、NeRF-DS以及iPhone-4D数据集上优于现有的动态或少样本技术。

🔬 方法详解

问题定义:现有动态场景重建方法依赖于密集的视频帧序列,但在实际应用中,由于设备限制等原因,往往只能获取稀疏的帧。直接将现有方法应用于稀疏帧会导致重建质量显著下降,尤其是在纹理丰富的区域,因为缺乏足够的约束信息来准确估计形变和规范空间中的高斯参数。

核心思路:Sparse4DGS的核心思路是利用纹理信息来指导形变和规范空间的优化过程。通过关注纹理丰富的区域,并引入纹理感知的正则化和优化策略,来弥补稀疏帧带来的信息缺失,从而提升重建质量。该方法假设纹理丰富的区域包含更多的几何信息,因此应该更加关注这些区域的优化。

技术框架:Sparse4DGS包含两个主要模块:形变网络和规范高斯场。形变网络负责将规范空间中的高斯映射到观察空间,规范高斯场则负责表示场景的静态几何和外观信息。整个流程包括:1)使用稀疏帧作为输入,通过形变网络预测每个高斯的形变;2)在观察空间中渲染图像,并计算渲染损失;3)使用纹理感知形变正则化来约束形变网络的学习;4)使用纹理感知规范优化来更新规范高斯场的参数。

关键创新:Sparse4DGS的关键创新在于提出了纹理感知形变正则化和纹理感知规范优化。纹理感知形变正则化通过引入基于纹理的深度对齐损失,来约束高斯形变,从而避免过拟合。纹理感知规范优化通过将基于纹理的噪声融入规范高斯的梯度下降过程中,来提升规范高斯场的鲁棒性。与现有方法相比,Sparse4DGS能够更好地利用纹理信息来弥补稀疏帧带来的信息缺失。

关键设计:纹理感知形变正则化中的深度对齐损失基于纹理梯度计算,鼓励形变后的高斯深度与相邻像素的深度保持一致。纹理感知规范优化中,纹理噪声的强度与纹理梯度成正比,使得纹理丰富的区域能够获得更大的优化力度。此外,该方法还采用了自适应学习率策略,根据纹理信息动态调整学习率。

📊 实验亮点

Sparse4DGS在NeRF-Synthetic、HyperNeRF、NeRF-DS和iPhone-4D数据集上进行了评估。实验结果表明,Sparse4DGS在稀疏帧条件下显著优于现有的动态NeRF方法和少样本NeRF方法。例如,在iPhone-4D数据集上,Sparse4DGS的PSNR指标比现有最佳方法提高了2-3dB。

🎯 应用场景

Sparse4DGS在机器人导航、自动驾驶、虚拟现实和增强现实等领域具有广泛的应用前景。它可以利用稀疏的传感器数据重建动态场景,从而降低对硬件设备的要求,并提高系统的鲁棒性和实时性。例如,在机器人导航中,可以使用Sparse4DGS来重建动态环境,从而帮助机器人更好地理解周围环境并做出决策。

📄 摘要(原文)

Dynamic Gaussian Splatting approaches have achieved remarkable performance for 4D scene reconstruction. However, these approaches rely on dense-frame video sequences for photorealistic reconstruction. In real-world scenarios, due to equipment constraints, sometimes only sparse frames are accessible. In this paper, we propose Sparse4DGS, the first method for sparse-frame dynamic scene reconstruction. We observe that dynamic reconstruction methods fail in both canonical and deformed spaces under sparse-frame settings, especially in areas with high texture richness. Sparse4DGS tackles this challenge by focusing on texture-rich areas. For the deformation network, we propose Texture-Aware Deformation Regularization, which introduces a texture-based depth alignment loss to regulate Gaussian deformation. For the canonical Gaussian field, we introduce Texture-Aware Canonical Optimization, which incorporates texture-based noise into the gradient descent process of canonical Gaussians. Extensive experiments show that when taking sparse frames as inputs, our method outperforms existing dynamic or few-shot techniques on NeRF-Synthetic, HyperNeRF, NeRF-DS, and our iPhone-4D datasets.