DistGrid: Scalable Scene Reconstruction with Distributed Multi-resolution Hash Grid
作者: Sidun Liu, Peng Qiao, Zongxin Ye, Wenyu Li, Yong Dou
分类: cs.CV
发布日期: 2024-05-07 (更新: 2024-05-08)
备注: Originally submitted to Siggraph Asia 2023
💡 一句话要点
提出DistGrid,基于分布式多分辨率哈希网格实现大规模场景重建。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 大规模场景重建 神经辐射场 多分辨率哈希网格 分布式渲染 体渲染
📋 核心要点
- 大规模场景重建面临网络容量和内存消耗的挑战,现有方法通过场景划分缓解内存问题,但引入了冗余的背景NeRF学习。
- DistGrid通过联合多分辨率哈希网格,将场景划分为紧密排列的轴对齐边界框,并采用分段体渲染处理跨边界光线,无需背景NeRF。
- 实验结果表明,DistGrid在重建质量上优于现有方法,并具备良好的可扩展性,能够重建视觉上合理的场景。
📝 摘要(中文)
神经辐射场(NeRF)在物体尺度和室内场景重建中取得了极高的质量。然而,在重建大规模场景时存在一些挑战。基于MLP的NeRF存在网络容量有限的问题,而基于体素的NeRF在场景分辨率提高时会消耗大量内存。最近的方法提出对场景进行地理划分,并使用单独的NeRF学习每个子区域。这种划分策略有助于基于体素的NeRF突破单个GPU内存限制并扩展到更大的场景。然而,这种方法需要多个背景NeRF来处理分区外的光线,导致学习冗余。受当前分区的背景是相邻分区的前景这一事实的启发,我们提出了一种基于联合多分辨率哈希网格的可扩展场景重建方法,名为DistGrid。在该方法中,场景被划分为多个紧密排列但不重叠的轴对齐边界框,并提出了一种新的分段体渲染方法来处理跨边界光线,从而消除了对背景NeRF的需求。实验表明,我们的方法在所有评估的大规模场景中都优于现有方法,并提供了视觉上合理的场景重建。我们进一步定性和定量地评估了我们的方法在重建质量上的可扩展性。
🔬 方法详解
问题定义:论文旨在解决大规模场景重建中,现有NeRF方法由于网络容量限制和内存消耗过大而难以有效重建的问题。特别是,基于场景划分的方法虽然能缓解内存问题,但需要额外的背景NeRF来处理跨区域的光线,导致计算冗余和效率降低。
核心思路:DistGrid的核心思路是利用相邻区域之间的信息共享,避免重复学习。具体来说,将场景划分为多个紧密排列但不重叠的轴对齐边界框,每个边界框对应一个局部NeRF。通过一种新的分段体渲染方法,可以有效地处理跨越多个边界框的光线,从而避免了对背景NeRF的需求。
技术框架:DistGrid的整体框架包括以下几个主要步骤:1) 场景划分:将场景划分为多个轴对齐边界框。2) 特征编码:使用多分辨率哈希网格对每个边界框内的空间位置进行特征编码。3) 体渲染:采用分段体渲染方法,对穿过多个边界框的光线进行积分,计算颜色和密度。4) 损失函数优化:通过光度损失函数优化网络参数,重建场景。
关键创新:DistGrid的关键创新在于:1) 提出了一种基于联合多分辨率哈希网格的分布式场景表示方法,能够有效地表示大规模场景。2) 提出了一种新的分段体渲染方法,能够处理跨边界光线,避免了对背景NeRF的需求,提高了效率。
关键设计:DistGrid的关键设计包括:1) 边界框的大小和数量:需要根据场景的大小和复杂度进行调整,以平衡内存消耗和重建质量。2) 多分辨率哈希网格的层数和分辨率:需要根据场景的细节程度进行调整,以保证能够捕捉到足够的细节信息。3) 分段体渲染的积分步长:需要根据场景的深度范围进行调整,以保证积分的准确性。
🖼️ 关键图片
📊 实验亮点
论文在多个大规模场景上进行了实验,结果表明DistGrid在重建质量上优于现有方法。定性和定量结果均表明,DistGrid能够重建出视觉上更清晰、细节更丰富的场景,并且具有良好的可扩展性,能够处理更大规模的场景。
🎯 应用场景
DistGrid可应用于大规模场景的三维重建,例如城市建模、自动驾驶、虚拟现实等领域。该方法能够高效地重建大规模场景,并提供视觉上逼真的渲染效果,为相关应用提供高质量的三维数据支持,并有望降低相关应用的计算成本。
📄 摘要(原文)
Neural Radiance Field~(NeRF) achieves extremely high quality in object-scaled and indoor scene reconstruction. However, there exist some challenges when reconstructing large-scale scenes. MLP-based NeRFs suffer from limited network capacity, while volume-based NeRFs are heavily memory-consuming when the scene resolution increases. Recent approaches propose to geographically partition the scene and learn each sub-region using an individual NeRF. Such partitioning strategies help volume-based NeRF exceed the single GPU memory limit and scale to larger scenes. However, this approach requires multiple background NeRF to handle out-of-partition rays, which leads to redundancy of learning. Inspired by the fact that the background of current partition is the foreground of adjacent partition, we propose a scalable scene reconstruction method based on joint Multi-resolution Hash Grids, named DistGrid. In this method, the scene is divided into multiple closely-paved yet non-overlapped Axis-Aligned Bounding Boxes, and a novel segmented volume rendering method is proposed to handle cross-boundary rays, thereby eliminating the need for background NeRFs. The experiments demonstrate that our method outperforms existing methods on all evaluated large-scale scenes, and provides visually plausible scene reconstruction. The scalability of our method on reconstruction quality is further evaluated qualitatively and quantitatively.