A View-consistent Sampling Method for Regularized Training of Neural Radiance Fields

📄 arXiv: 2507.04408v1 📥 PDF

作者: Aoxiang Fan, Corentin Dumery, Nicolas Talabot, Pascal Fua

分类: cs.CV

发布日期: 2025-07-06

备注: ICCV 2025 accepted


💡 一句话要点

提出基于视图一致性采样的NeRF正则化训练方法,提升真实场景下的新视角合成质量。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 神经辐射场 新视角合成 视图一致性 正则化训练 深度估计 基础模型 蒸馏特征

📋 核心要点

  1. 现有NeRF方法在真实场景中性能受限,深度正则化依赖昂贵的3D监督和易出错的深度估计。
  2. 提出基于视图一致性分布的采样方法,利用颜色特征和基础模型蒸馏特征进行NeRF正则化。
  3. 实验表明,该方法在多个数据集上显著提升了新视角合成质量,优于现有NeRF变体和深度正则化方法。

📝 摘要(中文)

神经辐射场(NeRF)已成为场景表示和3D重建的强大框架。为了提高其在真实世界数据上的性能,深度正则化已被证明是最有效的方法之一。然而,深度估计模型不仅需要在训练中进行昂贵的3D监督,而且还存在泛化问题。因此,深度估计在实践中可能是错误的,特别是对于室外无界场景。在本文中,我们提出采用视图一致性分布,而不是固定的深度值估计来正则化NeRF训练。具体来说,该分布是通过利用低级颜色特征和从基础模型中提取的高级蒸馏特征,在每个光线采样的3D点投影到2D像素位置上计算得到的。通过从视图一致性分布中采样,对NeRF的训练施加了隐式正则化。我们还利用了一种深度推进损失,它与采样技术协同工作,共同为消除失败模式提供有效的正则化。在公共数据集的各种场景中进行的大量实验表明,我们提出的方法可以生成比最先进的NeRF变体以及不同的深度正则化方法明显更好的新视角合成结果。

🔬 方法详解

问题定义:现有NeRF方法在真实场景中进行新视角合成时,由于缺乏足够的约束,容易产生伪影和不准确的几何结构。虽然深度正则化可以缓解这个问题,但它依赖于准确的深度估计,而深度估计模型需要大量的3D监督数据,并且在泛化到新的、未见过的场景时容易出错,尤其是在室外无界场景中。这些不准确的深度估计会损害NeRF的训练,导致性能下降。

核心思路:本文的核心思路是利用视图一致性作为一种隐式的正则化手段,避免直接依赖于显式的、可能不准确的深度估计。通过在每个光线上采样3D点时,不是使用固定的深度值,而是从一个基于视图一致性的分布中进行采样。这个分布反映了不同视角下对同一3D点的观测一致性,从而引导NeRF学习更准确的几何结构。

技术框架:该方法主要包含以下几个步骤:1) 对每个像素的光线进行采样;2) 对于每条光线,根据视图一致性分布进行3D点采样。视图一致性分布的计算依赖于低级颜色特征和从预训练的基础模型中提取的高级蒸馏特征;3) 使用采样的3D点和对应的视角信息,输入到NeRF网络中进行渲染;4) 计算渲染图像与真实图像之间的损失,并使用深度推进损失进一步正则化训练过程。

关键创新:该方法的关键创新在于使用视图一致性分布来指导NeRF的训练,而不是依赖于固定的深度值估计。这种方法避免了对昂贵的3D监督数据的需求,并且对不准确的深度估计具有更强的鲁棒性。此外,利用低级颜色特征和高级蒸馏特征相结合的方式构建视图一致性分布,能够更准确地反映不同视角下的观测一致性。

关键设计:视图一致性分布的构建是关键。具体来说,对于每个采样的3D点,将其投影到不同的视角下,并提取投影位置的颜色特征和蒸馏特征。然后,计算这些特征之间的相似度,并将其作为该3D点在视图一致性分布中的权重。深度推进损失的设计是为了鼓励NeRF学习更准确的深度信息,通过惩罚渲染深度与视图一致性分布的期望深度之间的差异来实现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个公开数据集上显著优于现有的NeRF变体和深度正则化方法。例如,在某些场景下,该方法可以将新视角合成的PSNR指标提升2-3dB,并且能够生成更清晰、更真实的图像,减少伪影和几何失真。与直接使用深度估计进行正则化的方法相比,该方法具有更强的鲁棒性和泛化能力。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、虚拟现实/增强现实等领域。通过提升NeRF在真实场景下的新视角合成质量,可以为这些应用提供更准确、更鲁棒的3D场景表示,从而提高系统的感知能力和决策能力。未来,该方法有望进一步扩展到动态场景的建模和渲染。

📄 摘要(原文)

Neural Radiance Fields (NeRF) has emerged as a compelling framework for scene representation and 3D recovery. To improve its performance on real-world data, depth regularizations have proven to be the most effective ones. However, depth estimation models not only require expensive 3D supervision in training, but also suffer from generalization issues. As a result, the depth estimations can be erroneous in practice, especially for outdoor unbounded scenes. In this paper, we propose to employ view-consistent distributions instead of fixed depth value estimations to regularize NeRF training. Specifically, the distribution is computed by utilizing both low-level color features and high-level distilled features from foundation models at the projected 2D pixel-locations from per-ray sampled 3D points. By sampling from the view-consistency distributions, an implicit regularization is imposed on the training of NeRF. We also utilize a depth-pushing loss that works in conjunction with the sampling technique to jointly provide effective regularizations for eliminating the failure modes. Extensive experiments conducted on various scenes from public datasets demonstrate that our proposed method can generate significantly better novel view synthesis results than state-of-the-art NeRF variants as well as different depth regularization methods.