Data Augmentation for NeRFs in the Low Data Limit

📄 arXiv: 2503.02092v1 📥 PDF

作者: Ayush Gaggar, Todd D. Murphey

分类: cs.CV, cs.RO

发布日期: 2025-03-03

备注: To be published in 2025 IEEE International Conference on Robotics and Automation (ICRA 2025)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出基于不确定性采样的NeRF数据增强方法,解决低数据量下的场景重建问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经辐射场 数据增强 低数据量学习 不确定性采样 场景重建

📋 核心要点

  1. NeRF在数据量不足时性能显著下降,尤其是在部分观测场景下,容易产生幻觉和模型崩溃。
  2. 论文提出一种基于后验不确定性分布的数据增强方法,通过拒绝采样添加新视图,提升NeRF在稀疏数据下的重建质量。
  3. 实验表明,该方法在部分观测场景下,相比现有方法,重建性能平均提升39.9%,变异性降低87.5%。

📝 摘要(中文)

现有的基于神经辐射场(NeRF)的方法在低数据量情况下表现不佳,尤其是在不完整的场景数据上训练时。以往的工作仅在下一最佳视角应用中增强训练数据,这会导致幻觉和模型在稀疏数据下崩溃。与此相反,我们提出了一种在训练期间添加一组视图的方法,该方法通过从后验不确定性分布中进行拒绝采样来实现,该分布结合了体积不确定性估计器和空间覆盖率。我们在部分观察到的场景中验证了我们的结果;与最先进的基线相比,我们的方法在已建立的场景重建基准上平均提高了39.9%,并且变异性降低了87.5%。我们进一步证明,通过从任何分布中采样来扩充训练集,可以在稀疏环境中实现更好、更一致的场景重建。这项工作是机器人任务的基础,在资源受限、先验未知的环境中,使用信息丰富的数据扩充数据集至关重要。

🔬 方法详解

问题定义:现有的NeRF方法在数据量较少的情况下,尤其是在场景数据不完整时,重建效果会显著下降。这是因为NeRF需要足够多的视角信息才能准确学习场景的几何和外观。简单的数据增强方法,例如随机视角采样,可能会引入噪声或不一致的信息,导致模型产生幻觉甚至崩溃。因此,如何在低数据量下有效地增强NeRF的训练数据,是本文要解决的关键问题。

核心思路:本文的核心思路是利用不确定性信息来指导数据增强。具体来说,通过估计NeRF在空间中的不确定性,并结合空间覆盖率,构建一个后验不确定性分布。然后,从这个分布中进行拒绝采样,选择那些NeRF最不确定且空间覆盖不足的区域作为新的视角,添加到训练数据中。这样可以确保新添加的视角包含更多信息,从而提高NeRF的重建质量。

技术框架:该方法主要包含以下几个模块:1) 体积不确定性估计器:用于估计NeRF在空间中的不确定性。2) 空间覆盖率计算:用于评估当前视角对场景的覆盖程度。3) 后验不确定性分布构建:将体积不确定性和空间覆盖率结合起来,构建一个后验不确定性分布。4) 拒绝采样:从后验不确定性分布中进行拒绝采样,选择新的视角。5) NeRF训练:将新添加的视角添加到训练数据中,重新训练NeRF。

关键创新:该方法最重要的创新点在于利用不确定性信息来指导数据增强。与以往的随机采样或基于下一最佳视角的采样方法不同,该方法能够选择那些NeRF最需要的信息,从而更有效地提高重建质量。此外,该方法还结合了体积不确定性和空间覆盖率,从而更全面地评估了视角的重要性。

关键设计:体积不确定性估计器可以使用多种方法实现,例如基于方差的估计或基于熵的估计。空间覆盖率可以使用射线追踪或体素化等方法计算。后验不确定性分布可以使用贝叶斯公式或简单的加权平均来构建。拒绝采样的阈值需要根据具体场景进行调整。损失函数可以使用标准的NeRF损失函数,例如光度损失和正则化损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在部分观测场景下,相比于现有最先进的基线方法,重建性能平均提升了39.9%,并且变异性降低了87.5%。这表明该方法不仅能够提高重建质量,还能够提高重建的稳定性。此外,实验还证明,即使使用任意分布进行采样增强,也能在稀疏环境下获得更好、更稳定的场景重建效果。

🎯 应用场景

该研究成果可应用于资源受限的机器人场景,例如在未知环境中进行探索和建图。通过少量观测数据和智能数据增强,机器人可以快速构建场景的三维模型,从而实现自主导航、目标识别和操作等任务。此外,该方法还可应用于虚拟现实、增强现实等领域,提高在低数据量下的场景重建质量和用户体验。

📄 摘要(原文)

Current methods based on Neural Radiance Fields fail in the low data limit, particularly when training on incomplete scene data. Prior works augment training data only in next-best-view applications, which lead to hallucinations and model collapse with sparse data. In contrast, we propose adding a set of views during training by rejection sampling from a posterior uncertainty distribution, generated by combining a volumetric uncertainty estimator with spatial coverage. We validate our results on partially observed scenes; on average, our method performs 39.9% better with 87.5% less variability across established scene reconstruction benchmarks, as compared to state of the art baselines. We further demonstrate that augmenting the training set by sampling from any distribution leads to better, more consistent scene reconstruction in sparse environments. This work is foundational for robotic tasks where augmenting a dataset with informative data is critical in resource-constrained, a priori unknown environments. Videos and source code are available at https://murpheylab.github.io/low-data-nerf/.