Crowd-Sourced NeRF: Collecting Data from Production Vehicles for 3D Street View Reconstruction

📄 arXiv: 2406.16289v1 📥 PDF

作者: Tong Qin, Changze Li, Haoyang Ye, Shaowei Wan, Minzhen Li, Hongwei Liu, Ming Yang

分类: cs.CV, cs.RO

发布日期: 2024-06-24

DOI: 10.1109/TITS.2024.3415394


💡 一句话要点

提出众包NeRF框架,利用量产车数据重建三维街景

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: NeRF 三维重建 众包数据 街景 自动驾驶

📋 核心要点

  1. 大规模NeRF重建需要海量数据,传统的数据采集车成本高昂,难以支持大规模应用。
  2. 提出众包NeRF框架,利用量产车上的摄像头数据,解决大规模场景NeRF重建的数据来源问题。
  3. 该框架集成了数据筛选、位姿优化、外观嵌入、深度监督和遮挡补全等模块,实验验证了其有效性。

📝 摘要(中文)

本文提出了一种众包框架,利用量产车辆捕获的大量图像数据,通过NeRF模型重建场景。该方法解决了大规模重建的关键问题,即数据来源和如何使用这些数据。首先,对众包的大量数据进行过滤,去除冗余,并在时间和空间上保持均衡分布。然后,执行运动结构恢复(Structure-from-Motion)模块来优化相机位姿。最后,将图像和位姿用于训练特定区块的NeRF模型。本文提出了一个综合框架,集成了数据选择、稀疏三维重建、序列外观嵌入、地面深度监督和遮挡补全等多个模块。该系统能够有效地处理和重建来自众包数据的高质量三维场景。大量的定量和定性实验验证了系统的性能。此外,还提出了一个名为第一视角导航的应用,利用NeRF模型生成三维街景,并通过合成视频引导驾驶员。

🔬 方法详解

问题定义:论文旨在解决大规模三维街景重建的数据获取问题。现有方法依赖于专门设计的数据采集车辆,成本高、效率低,难以满足大规模应用的需求。众包数据虽然量大,但质量参差不齐,存在冗余、噪声和分布不均匀等问题,直接用于NeRF训练效果不佳。

核心思路:论文的核心思路是利用量产车辆上的摄像头作为数据来源,构建一个众包数据驱动的NeRF重建框架。通过数据筛选、位姿优化等预处理步骤,提高众包数据的质量,使其能够用于训练高质量的NeRF模型。同时,针对街景重建的特点,引入了深度监督和遮挡补全等技术,进一步提升重建效果。

技术框架:整体框架包含以下几个主要模块:1) 数据选择:对众包数据进行过滤,去除冗余数据,保证数据在时间和空间上的分布均衡。2) 稀疏三维重建:使用Structure-from-Motion (SfM) 技术对场景进行稀疏三维重建,并优化相机位姿。3) 序列外观嵌入:学习图像序列的外观嵌入,用于提高NeRF模型的鲁棒性。4) 地面深度监督:利用地面先验知识,对NeRF模型进行深度监督,提高地面区域的重建质量。5) 遮挡补全:针对街景中常见的遮挡问题,设计遮挡补全模块,提高重建的完整性。最后,将处理后的图像和位姿用于训练NeRF模型。

关键创新:该论文的关键创新在于提出了一个完整的众包NeRF重建框架,将众包数据、SfM、NeRF、深度监督和遮挡补全等技术有机结合,解决了大规模三维街景重建的数据获取和处理问题。与现有方法相比,该方法无需专门的数据采集车辆,可以利用现有的量产车数据,大大降低了数据采集成本。

关键设计:论文中一些关键的设计包括:1) 数据选择策略,用于去除冗余数据,保证数据分布的均衡性。2) 基于SfM的位姿优化方法,用于提高相机位姿的精度。3) 地面深度监督损失函数,用于提高地面区域的重建质量。4) 遮挡补全模块,用于提高重建的完整性。具体参数设置和网络结构在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过大量的定量和定性实验验证了所提出框架的有效性。实验结果表明,该框架能够利用众包数据重建高质量的三维街景,并且在视觉质量和几何精度方面都取得了良好的效果。此外,第一视角导航应用的演示也展示了该技术的实际应用价值。

🎯 应用场景

该研究成果可应用于三维街景地图的构建和更新,为自动驾驶、城市规划、虚拟旅游等领域提供高质量的三维场景数据。通过第一视角导航应用,可以为驾驶员提供更直观的导航信息,提高驾驶安全性。未来,该技术还可以扩展到其他大规模场景的三维重建,例如室内场景、工业场景等。

📄 摘要(原文)

Recently, Neural Radiance Fields (NeRF) achieved impressive results in novel view synthesis. Block-NeRF showed the capability of leveraging NeRF to build large city-scale models. For large-scale modeling, a mass of image data is necessary. Collecting images from specially designed data-collection vehicles can not support large-scale applications. How to acquire massive high-quality data remains an opening problem. Noting that the automotive industry has a huge amount of image data, crowd-sourcing is a convenient way for large-scale data collection. In this paper, we present a crowd-sourced framework, which utilizes substantial data captured by production vehicles to reconstruct the scene with the NeRF model. This approach solves the key problem of large-scale reconstruction, that is where the data comes from and how to use them. Firstly, the crowd-sourced massive data is filtered to remove redundancy and keep a balanced distribution in terms of time and space. Then a structure-from-motion module is performed to refine camera poses. Finally, images, as well as poses, are used to train the NeRF model in a certain block. We highlight that we present a comprehensive framework that integrates multiple modules, including data selection, sparse 3D reconstruction, sequence appearance embedding, depth supervision of ground surface, and occlusion completion. The complete system is capable of effectively processing and reconstructing high-quality 3D scenes from crowd-sourced data. Extensive quantitative and qualitative experiments were conducted to validate the performance of our system. Moreover, we proposed an application, named first-view navigation, which leveraged the NeRF model to generate 3D street view and guide the driver with a synthesized video.