LeC$^2$O-NeRF: Learning Continuous and Compact Large-Scale Occupancy for Urban Scenes
作者: Zhenxing Mi, Dan Xu
分类: cs.CV, cs.GR
发布日期: 2024-11-18
备注: 13 pages
💡 一句话要点
LeC$^2$O-NeRF:学习连续紧凑的大规模场景 occupancy 以加速城市场景 NeRF 训练。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: NeRF Occupancy预测 大规模场景 城市建模 空域跳过
📋 核心要点
- 现有基于网格的 occupancy 方法在大规模场景中面临内存消耗大、难以更新等问题,限制了 NeRF 的训练效率。
- 提出学习连续紧凑的 occupancy 网络,通过不平衡损失、网络架构和密度损失,自监督地学习场景的 occupancy 信息。
- 实验表明,该方法能学习更紧凑、准确的 occupancy,并加速大规模场景 NeRF 的训练,同时保持或提升渲染质量。
📝 摘要(中文)
NeRF中,有效估计 occupancy 对于指导空域跳过和点采样至关重要。基于网格的方法在小规模场景中表现良好。然而,在大规模场景中,它们受到预定义的边界框、网格分辨率以及网格更新的高内存使用量的限制,因此难以在不牺牲精度的情况下加速大规模、不规则边界和复杂城市场景的训练。本文提出学习一个连续且紧凑的大规模 occupancy 网络,该网络可以将 3D 点分类为 occupied 或 unoccupied 点。我们通过三个设计,以自监督的方式端到端地训练这个 occupancy 网络和辐射场。首先,我们提出了一种新颖的不平衡 occupancy 损失来正则化 occupancy 网络,使其有效地控制 unoccupied 和 occupied 点的比例,这是基于大多数 3D 场景点是 unoccupied 的先验知识。其次,我们设计了一个包含大型场景网络和小型空域网络的不平衡架构,以分别编码 occupancy 网络分类的 occupied 和 unoccupied 点。这种不平衡结构可以有效地建模 occupied 和 unoccupied 区域的不平衡性质。第三,我们设计了一个显式的密度损失来指导 occupancy 网络,使 unoccupied 点的密度更小。据我们所知,我们是第一个通过网络学习大规模 NeRF 的连续且紧凑的 occupancy。在我们的实验中,与 occupancy 网格相比,我们的 occupancy 网络可以快速学习更紧凑、准确和平滑的 occupancy。通过我们学习到的 occupancy 作为具有挑战性的大规模基准测试中空域跳过的指导,我们的方法始终获得比 occupancy 网格更高的精度,并且我们的方法可以在不牺牲精度的情况下加速最先进的 NeRF 方法。
🔬 方法详解
问题定义:论文旨在解决大规模城市场景 NeRF 训练中,传统基于网格的 occupancy 方法效率低下的问题。现有方法需要预定义边界框和网格分辨率,导致内存消耗大,难以适应不规则的场景边界,且更新网格的代价高昂,限制了训练速度和渲染质量。
核心思路:论文的核心思路是学习一个连续且紧凑的 occupancy 网络,该网络能够直接预测 3D 空间中任意点的 occupancy 概率。通过学习 occupancy,可以更有效地进行空域跳过和点采样,从而加速 NeRF 的训练过程。这种方法避免了对预定义网格的依赖,能够更好地适应大规模、不规则的城市场景。
技术框架:整体框架包含一个 occupancy 网络和一个 NeRF 网络。occupancy 网络接收 3D 点坐标作为输入,输出该点被占据的概率。NeRF 网络则利用 occupancy 网络的输出进行空域跳过和点采样,从而加速渲染过程。整个框架通过自监督的方式进行端到端训练。主要模块包括:1) Occupancy 网络;2) NeRF 网络;3) 不平衡 occupancy 损失;4) 不平衡网络架构;5) 显式密度损失。
关键创新:最重要的技术创新点在于使用神经网络学习连续的 occupancy 函数,而非使用离散的 occupancy 网格。这种方法能够更有效地表示大规模场景的 occupancy 信息,并避免了网格分辨率的限制。此外,论文还提出了不平衡 occupancy 损失和不平衡网络架构,以更好地处理 occupied 和 unoccupied 区域的不平衡性。
关键设计:1) 不平衡 Occupancy 损失:考虑到场景中大部分空间是空的,该损失函数旨在平衡 occupied 和 unoccupied 点的比例,从而更好地训练 occupancy 网络。2) 不平衡网络架构:使用一个大型网络编码 occupied 区域,一个小型网络编码 unoccupied 区域,以适应两者的不同复杂性。3) 显式密度损失:鼓励 unoccupied 点的密度更小,从而提高 occupancy 预测的准确性。4) 自监督训练:通过 NeRF 的渲染结果反向传播梯度,训练 occupancy 网络,无需额外的 occupancy 标签。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LeC$^2$O-NeRF 能够学习到比 occupancy 网格更紧凑、准确和平滑的 occupancy 信息。在具有挑战性的大规模城市场景基准测试中,该方法在不牺牲精度的前提下,能够加速最先进的 NeRF 方法的训练过程,并获得更高的渲染质量。具体性能提升数据未知。
🎯 应用场景
该研究成果可应用于自动驾驶、城市建模、虚拟现实等领域。通过高效地渲染大规模城市场景,可以为自动驾驶提供更真实的模拟环境,加速算法的开发和测试。在城市建模中,可以快速生成高精度的三维模型,用于城市规划和管理。在虚拟现实中,可以提供更逼真的沉浸式体验。
📄 摘要(原文)
In NeRF, a critical problem is to effectively estimate the occupancy to guide empty-space skipping and point sampling. Grid-based methods work well for small-scale scenes. However, on large-scale scenes, they are limited by predefined bounding boxes, grid resolutions, and high memory usage for grid updates, and thus struggle to speed up training for large-scale, irregularly bounded and complex urban scenes without sacrificing accuracy. In this paper, we propose to learn a continuous and compact large-scale occupancy network, which can classify 3D points as occupied or unoccupied points. We train this occupancy network end-to-end together with the radiance field in a self-supervised manner by three designs. First, we propose a novel imbalanced occupancy loss to regularize the occupancy network. It makes the occupancy network effectively control the ratio of unoccupied and occupied points, motivated by the prior that most of 3D scene points are unoccupied. Second, we design an imbalanced architecture containing a large scene network and a small empty space network to separately encode occupied and unoccupied points classified by the occupancy network. This imbalanced structure can effectively model the imbalanced nature of occupied and unoccupied regions. Third, we design an explicit density loss to guide the occupancy network, making the density of unoccupied points smaller. As far as we know, we are the first to learn a continuous and compact occupancy of large-scale NeRF by a network. In our experiments, our occupancy network can quickly learn more compact, accurate and smooth occupancy compared to the occupancy grid. With our learned occupancy as guidance for empty space skipping on challenging large-scale benchmarks, our method consistently obtains higher accuracy compared to the occupancy grid, and our method can speed up state-of-the-art NeRF methods without sacrificing accuracy.