DWTNeRF: Boosting Few-shot Neural Radiance Fields via Discrete Wavelet Transform

📄 arXiv: 2501.12637v3 📥 PDF

作者: Hung Nguyen, Blark Runfa Li, Truong Nguyen

分类: cs.CV

发布日期: 2025-01-22 (更新: 2025-08-09)


💡 一句话要点

DWTNeRF:通过离散小波变换提升少样本神经辐射场性能

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经辐射场 少样本学习 离散小波变换 novel view synthesis 三维重建

📋 核心要点

  1. NeRF需要大量训练视图,收敛速度慢,限制了其在实际场景中的应用,尤其是在训练数据稀疏的情况下。
  2. DWTNeRF利用离散小波变换损失,显式地优先考虑低频信息,减少少样本NeRF对高频信息的过拟合。
  3. DWTNeRF在3-shot LLFF基准测试中显著优于Vanilla INGP,证明了其在少样本场景下的有效性。

📝 摘要(中文)

神经辐射场(NeRF)在 novel view synthesis 和 3D 场景表示方面取得了卓越的性能,但其缓慢的收敛速度和对密集训练视角的依赖阻碍了其在实际应用中的发展。为此,我们提出了 DWTNeRF,一个基于 Instant-NGP 快速训练哈希编码的统一框架。它与专为少样本 NeRF 设计的正则化项相结合,可在稀疏训练视角下运行。我们的 DWTNeRF 还包括一种新颖的离散小波损失,可以直接在训练目标中显式地优先考虑低频信息,从而减少了少样本 NeRF 在早期训练阶段对高频信息的过拟合。我们还引入了一种基于多头注意力的模型方法,该方法与对架构变化敏感的 INGP 兼容。在 3-shot LLFF 基准测试中,DWTNeRF 在 PSNR、SSIM 和 LPIPS 方面分别优于 Vanilla INGP 15.07%、24.45% 和 36.30%。我们的方法鼓励重新思考当前针对快速收敛隐式表示(如 INGP 或 3DGS)的少样本方法。

🔬 方法详解

问题定义:论文旨在解决少样本 NeRF 训练中,由于训练视角稀疏导致模型容易过拟合高频信息,从而影响 novel view synthesis 质量的问题。现有方法在少样本情况下难以有效学习场景的整体结构,导致生成图像模糊或失真。

核心思路:论文的核心思路是通过引入离散小波变换(DWT)损失,在训练过程中显式地优先考虑低频信息。DWT可以将图像分解为不同频率的分量,通过对低频分量施加更大的权重,可以引导模型首先学习场景的全局结构,从而减少对高频噪声的过拟合。

技术框架:DWTNeRF 基于 Instant-NGP 的快速训练哈希编码框架。整体流程包括:1) 使用 Instant-NGP 进行场景表示;2) 在训练过程中,计算渲染图像与真实图像之间的 DWT 损失;3) 将 DWT 损失与传统的渲染损失(如 MSE)结合,作为最终的训练目标;4) 使用多头注意力机制来增强模型的表达能力,并使其与 Instant-NGP 兼容。

关键创新:论文的关键创新在于引入了 DWT 损失,这是一种显式地控制频率成分的正则化方法。与传统的正则化方法不同,DWT 损失可以直接作用于频率域,从而更有效地抑制高频噪声,提高少样本 NeRF 的性能。此外,论文还提出了一种基于多头注意力的模型方法,使其与对架构变化敏感的 INGP 兼容。

关键设计:DWT 损失的具体计算方式为:首先对渲染图像和真实图像进行 DWT 分解,得到不同频率的分量;然后,对低频分量施加更大的权重,计算它们之间的 MSE 损失;最后,将所有频率分量的 MSE 损失加权求和,得到最终的 DWT 损失。多头注意力机制的具体实现方式为:在 Instant-NGP 的网络结构中,插入多个注意力头,每个注意力头负责学习不同的特征表示。通过多头注意力机制,可以增强模型的表达能力,并使其更好地适应不同的场景。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DWTNeRF 在 3-shot LLFF 基准测试中取得了显著的性能提升。具体来说,DWTNeRF 在 PSNR 指标上优于 Vanilla INGP 15.07%,在 SSIM 指标上优于 24.45%,在 LPIPS 指标上优于 36.30%。这些结果表明,DWTNeRF 在少样本场景下能够有效地学习场景的结构,并生成高质量的 novel view。与现有方法相比,DWTNeRF 具有更强的鲁棒性和泛化能力。

🎯 应用场景

DWTNeRF 在三维重建、虚拟现实、增强现实等领域具有广泛的应用前景。尤其是在训练数据有限的情况下,例如从少量照片或视频中重建三维场景,DWTNeRF 可以显著提高重建质量。该方法还可以应用于快速生成高质量的 novel view,为用户提供更逼真的视觉体验。未来,该方法有望应用于自动驾驶、机器人导航等领域。

📄 摘要(原文)

Neural Radiance Fields (NeRF) has achieved superior performance in novel view synthesis and 3D scene representation, but its practical applications are hindered by slow convergence and reliance on dense training views. To this end, we present DWTNeRF, a unified framework based on Instant-NGP's fast-training hash encoding. It is coupled with regularization terms designed for few-shot NeRF, which operates on sparse training views. Our DWTNeRF additionally includes a novel Discrete Wavelet loss that allows explicit prioritization of low frequencies directly in the training objective, reducing few-shot NeRF's overfitting on high frequencies in earlier training stages. We also introduce a model-based approach, based on multi-head attention, that is compatible with INGP, which are sensitive to architectural changes. On the 3-shot LLFF benchmark, DWTNeRF outperforms Vanilla INGP by 15.07% in PSNR, 24.45% in SSIM and 36.30% in LPIPS. Our approach encourages a re-thinking of current few-shot approaches for fast-converging implicit representations like INGP or 3DGS.