DWTGS: Rethinking Frequency Regularization for Sparse-view 3D Gaussian Splatting

📄 arXiv: 2507.15690v3 📥 PDF

作者: Hung Nguyen, Runfa Li, An Le, Truong Nguyen

分类: cs.CV, eess.IV, eess.SP

发布日期: 2025-07-21 (更新: 2025-10-08)

备注: Accepted to VCIP 2025


💡 一句话要点

DWTGS:利用小波变换改进稀疏视角3D高斯溅射的频率正则化

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 稀疏视角重建 频率正则化 离散小波变换 小波域监督

📋 核心要点

  1. 稀疏视角3DGS易于过拟合高频细节,导致新视角重建质量下降,现有频率正则化方法依赖傅里叶变换,参数调整困难且易引入偏差。
  2. DWTGS利用小波变换,在小波空间进行频率正则化,仅监督低频子带,并对高频子带施加稀疏性约束,从而提高泛化能力。
  3. 实验结果表明,DWTGS在多个基准测试中优于基于傅里叶变换的方法,有效减少了高频伪影,提升了重建质量。

📝 摘要(中文)

稀疏视角3D高斯溅射(3DGS)在重建高质量新视角时面临重大挑战,因为它经常过度拟合稀疏训练视角中差异较大的高频(HF)细节。虽然频率正则化可能是一种有前途的方法,但其对傅里叶变换的典型依赖会导致困难的参数调整和对有害的HF学习的偏见。我们提出了DWTGS,一个通过利用提供额外空间监督的小波空间损失来重新思考频率正则化的框架。具体来说,我们仅监督多个DWT级别的低频(LF) LL子带,同时以自监督的方式对HF HH子带强制执行稀疏性。跨基准的实验表明,DWTGS始终优于基于傅里叶的方法,因为这种以LF为中心的策略提高了泛化能力并减少了HF幻觉。

🔬 方法详解

问题定义:论文旨在解决稀疏视角下3D高斯溅射(3DGS)重建中,由于过度拟合训练视角的高频细节而导致的新视角质量下降问题。现有基于傅里叶变换的频率正则化方法存在参数调整困难,且容易引入对有害高频信息的学习偏差,从而影响重建效果。

核心思路:论文的核心思路是利用离散小波变换(DWT)进行频率正则化,通过在小波域中对不同频率子带进行选择性监督,来改善3DGS的泛化能力和重建质量。这种方法旨在避免直接在像素空间或傅里叶空间进行正则化带来的问题。

技术框架:DWTGS框架主要包含以下几个阶段:1) 使用3DGS进行场景表示和渲染;2) 对渲染图像进行离散小波变换,分解为不同频率的子带(LL, LH, HL, HH);3) 对低频LL子带施加监督损失,鼓励模型学习场景的整体结构;4) 对高频HH子带施加稀疏性约束,抑制高频噪声和伪影;5) 结合渲染损失和频率正则化损失,优化3DGS参数。

关键创新:该论文的关键创新在于将离散小波变换引入到3DGS的频率正则化中。与传统的傅里叶变换相比,小波变换具有更好的时频局部化特性,能够更精确地控制不同频率成分的学习。此外,通过选择性地监督低频子带和约束高频子带,可以有效地提高模型的泛化能力,并减少高频伪影的产生。

关键设计:DWTGS的关键设计包括:1) 使用多层DWT分解,以捕捉不同尺度的频率信息;2) 对低频LL子带使用L1或L2损失进行监督,鼓励模型学习场景的整体结构;3) 对高频HH子带使用L1正则化或Total Variation正则化,以强制稀疏性,抑制高频噪声;4) 平衡渲染损失、低频监督损失和高频稀疏性损失的权重,以获得最佳的重建效果。具体损失函数的设计和权重参数的选择需要根据具体场景进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DWTGS在多个稀疏视角3DGS重建基准测试中,显著优于基于傅里叶变换的频率正则化方法。例如,在重建质量指标PSNR上,DWTGS平均提升了1-2dB,在SSIM指标上也有显著提升。此外,DWTGS能够有效减少高频伪影,使得重建结果更加清晰和真实。

🎯 应用场景

DWTGS在稀疏视角下的三维重建领域具有广泛的应用前景,例如在机器人导航、自动驾驶、虚拟现实、增强现实等领域,可以利用少量图像或视频数据重建高质量的三维场景模型。该方法还可以应用于医学图像重建,例如在低剂量CT扫描中,利用DWTGS可以减少噪声和伪影,提高图像质量,从而降低患者的辐射暴露。

📄 摘要(原文)

Sparse-view 3D Gaussian Splatting (3DGS) presents significant challenges in reconstructing high-quality novel views, as it often overfits to the widely-varying high-frequency (HF) details of the sparse training views. While frequency regularization can be a promising approach, its typical reliance on Fourier transforms causes difficult parameter tuning and biases towards detrimental HF learning. We propose DWTGS, a framework that rethinks frequency regularization by leveraging wavelet-space losses that provide additional spatial supervision. Specifically, we supervise only the low-frequency (LF) LL subbands at multiple DWT levels, while enforcing sparsity on the HF HH subband in a self-supervised manner. Experiments across benchmarks show that DWTGS consistently outperforms Fourier-based counterparts, as this LF-centric strategy improves generalization and reduces HF hallucinations.