DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction
作者: Fuzhen Jiang, Zhuoran Li, Yinlin Zhang
分类: cs.CV, cs.AI
发布日期: 2026-03-10
💡 一句话要点
DenoiseSplat:用于噪声场景重建的前馈高斯溅射方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D场景重建 高斯溅射 噪声消除 前馈网络 新视角合成
📋 核心要点
- 现有NeRF和3D高斯溅射方法在处理真实场景中存在的噪声和伪影时性能显著下降,限制了其应用。
- DenoiseSplat提出了一种前馈3D高斯溅射方法,专门用于处理带噪声的多视图图像,提升重建质量。
- 通过在RE10K数据集上构建的噪声基准测试,DenoiseSplat在多种噪声类型和强度下均优于现有方法。
📝 摘要(中文)
三维场景重建和新视角合成是VR、机器人和内容创作的基础。然而,大多数NeRF和3D高斯溅射流程都假设输入是干净的,并在真实噪声和伪影下性能下降。因此,我们提出了DenoiseSplat,一种用于噪声多视图图像的前馈3D高斯溅射方法。我们通过注入具有可控强度的Gaussian、Poisson、speckle和salt-and-pepper噪声,在RE10K上构建了一个大规模、场景一致的噪声-干净基准。使用轻量级的MVSplat风格的前馈骨干网络,我们仅使用干净的2D渲染作为监督进行端到端训练,而无需3D ground truth。在噪声RE10K上,DenoiseSplat在各种噪声类型和强度下,在PSNR/SSIM和LPIPS方面优于vanilla MVSplat和一个强大的两阶段基线(IDF + MVSplat)。
🔬 方法详解
问题定义:论文旨在解决在噪声环境下进行高质量3D场景重建的问题。现有的NeRF和3D高斯溅射方法通常假设输入数据是干净的,当输入包含噪声时,重建质量会显著下降,这限制了它们在实际应用中的有效性。
核心思路:DenoiseSplat的核心思路是利用一个前馈网络直接从带噪声的多视图图像中学习到干净的3D高斯表示。通过端到端训练,网络能够隐式地学习到噪声的分布,并有效地去除噪声,从而提高重建质量。
技术框架:DenoiseSplat采用MVSplat风格的前馈骨干网络,直接从多视图图像预测3D高斯参数。该框架主要包含图像特征提取、高斯参数预测和渲染三个阶段。图像特征提取阶段用于提取多视图图像的特征;高斯参数预测阶段利用提取的特征预测每个高斯球的位置、协方差和颜色等参数;渲染阶段则将预测的高斯球渲染成2D图像,并与干净的ground truth进行比较,计算损失。
关键创新:DenoiseSplat的关键创新在于其端到端的训练方式和对噪声的鲁棒性。与传统的两阶段方法相比,DenoiseSplat能够直接从带噪声的图像中学习,避免了中间步骤的误差累积。此外,DenoiseSplat仅使用干净的2D渲染作为监督,无需3D ground truth,降低了数据采集的成本。
关键设计:DenoiseSplat使用轻量级的MVSplat风格的前馈骨干网络,以提高训练效率。损失函数主要由渲染损失构成,用于衡量渲染图像与干净ground truth之间的差异。论文通过在RE10K数据集上注入不同类型的噪声,构建了一个大规模的噪声基准,用于评估DenoiseSplat的性能。网络结构和损失函数的具体形式在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
DenoiseSplat在噪声RE10K数据集上取得了显著的性能提升。与vanilla MVSplat和两阶段基线(IDF + MVSplat)相比,DenoiseSplat在PSNR、SSIM和LPIPS等指标上均表现出更好的性能。实验结果表明,DenoiseSplat能够有效地去除各种类型的噪声,并重建出高质量的3D场景。
🎯 应用场景
DenoiseSplat在VR、机器人和内容创作等领域具有广泛的应用前景。它可以用于从低质量或带噪声的图像中重建高质量的3D场景,例如,在光照条件不佳或传感器存在噪声的情况下,重建室内环境或室外场景。此外,DenoiseSplat还可以用于增强现有的3D重建流程,提高重建的鲁棒性和准确性,从而为用户提供更好的体验。
📄 摘要(原文)
3D scene reconstruction and novel-view synthesis are fundamental for VR, robotics, and content creation. However, most NeRF and 3D Gaussian Splatting pipelines assume clean inputs and degrade under real noise and artifacts. We therefore propose DenoiseSplat, a feed-forward 3D Gaussian splatting method for noisy multi-view images. We build a large-scale, scene-consistent noisy--clean benchmark on RE10K by injecting Gaussian, Poisson, speckle, and salt-and-pepper noise with controlled intensities. With a lightweight MVSplat-style feed-forward backbone, we train end-to-end using only clean 2D renderings as supervision and no 3D ground truth. On noisy RE10K, DenoiseSplat outperforms vanilla MVSplat and a strong two-stage baseline (IDF + MVSplat) in PSNR/SSIM and LPIPS across noise types and levels.