A Probabilistic Formulation of LiDAR Mapping with Neural Radiance Fields

作者: Matthew McDermott, Jason Rife

分类: cs.CV, cs.RO

发布日期: 2024-11-04

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于概率的NeRF LiDAR建图方法，解决多重反射导致的幻影表面问题

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱八：物理动画 (Physics-based Animation)

关键词: 神经辐射场 LiDAR 三维重建 概率建模 自动驾驶 机器人导航 多重反射

📋 核心要点

传统NeRF在LiDAR数据上训练时，由于多重反射的存在，容易在自由空间中产生不真实的幻影表面。
论文提出将损失函数定义为概率积分，使网络能够学习到光线上多个可能的反射峰值，从而更好地处理多重反射。
该方法允许从单个输出通道采样第一次、第n次或最强的回波，提高了LiDAR NeRF的精度和鲁棒性。

📝 摘要（中文）

本文重新审视了使用神经辐射场（NeRF）生成场景中LiDAR新视角的过程。与图像应用中相机像素随时间积分光线不同，LiDAR脉冲在特定时间到达。因此，对于任何给定的探测器，都可能存在多个LiDAR回波，并且这些回波的分类本质上是概率性的。应用传统的NeRF训练程序可能导致网络在冲突的距离测量之间的自由空间中学习到幻影表面，类似于图像模型可能产生的漂浮像差。我们证明，通过将损失函数定义为概率的积分（而不是光密度的积分），网络可以学习给定光线的多个峰值，从而允许从单个输出通道采样第一次、第n次或最强的回波。代码已在https://github.com/mcdermatt/PLINK提供。

🔬 方法详解

问题定义：现有NeRF方法在应用于LiDAR数据时，由于LiDAR数据的特殊性（即可能存在多次反射），容易在自由空间中学习到错误的几何结构，产生“幻影表面”。这是因为传统的NeRF训练方式侧重于光密度的积分，无法很好地处理LiDAR数据中一个光线上多个有效反射点的情况。

核心思路：论文的核心思路是将NeRF的训练目标从光密度积分转变为概率积分。具体来说，不再是预测每个点的光密度，而是预测每个点是反射点的概率。通过这种方式，网络可以学习到一条光线上多个可能的反射点，从而避免幻影表面的产生。这种概率建模更符合LiDAR数据采集的物理过程。

技术框架：整体框架仍然基于NeRF，但关键在于损失函数的修改。传统的NeRF使用光密度积分来计算渲染图像与真实图像之间的差异，而本文提出的方法使用概率积分来计算渲染概率分布与真实LiDAR回波之间的差异。具体流程包括：1) 从相机光线上采样点；2) 使用NeRF网络预测每个点的概率；3) 对概率进行积分，得到沿光线的概率分布；4) 将该概率分布与真实的LiDAR回波进行比较，计算损失。

关键创新：最重要的创新点在于将NeRF的训练目标从光密度积分转变为概率积分。这种转变使得网络能够更好地处理LiDAR数据中多重反射的问题，避免了幻影表面的产生。此外，该方法还允许从单个输出通道采样第一次、第n次或最强的回波，提供了更大的灵活性。

关键设计：关键的设计在于损失函数的选择。论文使用了一种基于概率分布的损失函数，例如交叉熵损失或KL散度，来衡量渲染概率分布与真实LiDAR回波之间的差异。此外，网络结构方面，可以使用标准的NeRF网络结构，但需要修改输出层，使其输出每个点的概率值而不是光密度值。具体的参数设置和网络结构的选择可能需要根据具体的LiDAR数据集进行调整。

🖼️ 关键图片

fig_0

fig_1

fig_2

📊 实验亮点

论文通过实验验证了所提出的概率NeRF方法在LiDAR数据上的有效性。实验结果表明，该方法能够有效地减少幻影表面的产生，提高NeRF重建的精度和鲁棒性。具体性能数据未知，但论文强调该方法能够学习到光线上多个可能的反射峰值，从而更好地处理多重反射。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、三维重建等领域。通过提高LiDAR数据的NeRF重建质量，可以提升环境感知的准确性和鲁棒性，从而改善自动驾驶车辆的决策能力和机器人的导航性能。此外，该方法还可以用于生成高质量的三维模型，应用于虚拟现实和增强现实等领域。

📄 摘要（原文）

In this paper we reexamine the process through which a Neural Radiance Field (NeRF) can be trained to produce novel LiDAR views of a scene. Unlike image applications where camera pixels integrate light over time, LiDAR pulses arrive at specific times. As such, multiple LiDAR returns are possible for any given detector and the classification of these returns is inherently probabilistic. Applying a traditional NeRF training routine can result in the network learning phantom surfaces in free space between conflicting range measurements, similar to how floater aberrations may be produced by an image model. We show that by formulating loss as an integral of probability (rather than as an integral of optical density) the network can learn multiple peaks for a given ray, allowing the sampling of first, nth, or strongest returns from a single output channel. Code is available at https://github.com/mcdermatt/PLINK