Blending Distributed NeRFs with Tri-stage Robust Pose Optimization

📄 arXiv: 2405.02880v1 📥 PDF

作者: Baijun Ye, Caiyun Liu, Xiaoyu Ye, Yuantao Chen, Yuhai Wang, Zike Yan, Yongliang Shi, Hao Zhao, Guyue Zhou

分类: cs.CV, cs.RO

发布日期: 2024-05-05

🔗 代码/项目: GITHUB


💡 一句话要点

提出三阶段鲁棒位姿优化方法,解决分布式NeRF融合中的伪影问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经辐射场 分布式NeRF 位姿优化 三维重建 场景融合

📋 核心要点

  1. 现有分布式NeRF融合方法受限于渲染分辨率差异和位姿精度,导致融合结果中出现伪影。
  2. 论文提出三阶段位姿优化方法,包括Frame2Model和Model2Model优化,以提升位姿精度和鲁棒性。
  3. 实验结果表明,该方法在真实和模拟场景中均能有效减少伪影,提升NeRF融合性能。

📝 摘要(中文)

由于模型容量的限制,利用分布式神经辐射场(NeRFs)建模大型城市环境变得必要。然而,当前分布式NeRF配准方法存在伪影,这是由于渲染分辨率差异和次优的位姿精度引起的。这些因素共同降低了NeRF框架内位姿估计的准确性,导致NeRF融合阶段出现遮挡伪影。本文提出了一种具有三阶段位姿优化的分布式NeRF系统。第一阶段,通过粗到精策略的Bundle Adjustment优化Mip-NeRF 360,实现精确的图像位姿。第二阶段,结合反演Mip-NeRF 360和截断动态低通滤波器,实现鲁棒而精确的位姿,称为Frame2Model优化。在此基础上,获得不同坐标系下NeRF之间的粗略变换。第三阶段,通过Model2Model位姿优化微调NeRF之间的变换。获得精确的变换参数后,进行NeRF融合,在真实和模拟场景中都表现出优越的性能指标。代码和数据将在https://github.com/boilcy/Distributed-NeRF公开。

🔬 方法详解

问题定义:分布式NeRF在建模大规模场景时是必要的,但现有方法在融合不同NeRF时,由于相机位姿不准确以及渲染分辨率的差异,会导致融合结果中出现伪影,降低了场景重建的质量。现有方法难以在保证效率的同时,实现高精度的NeRF配准。

核心思路:论文的核心思路是通过三阶段的位姿优化,逐步提升相机位姿的精度和鲁棒性,从而减少NeRF融合过程中的伪影。首先利用Bundle Adjustment进行初步优化,然后通过Frame2Model和Model2Model优化进一步提升位姿精度,最终实现高质量的NeRF融合。

技术框架:该方法包含三个主要阶段:1) 基于Bundle Adjustment的位姿优化:使用Mip-NeRF 360和粗到精策略,获得初始的精确图像位姿。2) Frame2Model位姿优化:结合反演Mip-NeRF 360和截断动态低通滤波器,实现鲁棒且精确的位姿估计,并获得不同NeRF坐标系之间的粗略变换。3) Model2Model位姿优化:通过优化NeRF之间的变换参数,对不同NeRF进行精细配准。最后,利用优化后的位姿参数进行NeRF融合。

关键创新:该方法最重要的创新点在于提出了三阶段位姿优化策略,特别是Frame2Model和Model2Model优化。Frame2Model优化利用反演Mip-NeRF 360和截断动态低通滤波器,增强了位姿估计的鲁棒性。Model2Model优化则直接优化NeRF之间的变换,进一步提升了配准精度。与现有方法相比,该方法能够更有效地减少NeRF融合中的伪影。

关键设计:在Frame2Model优化中,截断动态低通滤波器的具体参数设置(例如截断阈值和滤波器大小)需要根据具体场景进行调整,以平衡噪声抑制和细节保留。损失函数的设计也至关重要,需要综合考虑图像重建误差、位姿正则化项等因素,以保证位姿估计的准确性和稳定性。在Model2Model优化中,需要选择合适的优化器和学习率,以避免陷入局部最优解。

📊 实验亮点

该方法在真实和模拟场景中都取得了优越的性能。具体而言,通过三阶段位姿优化,显著减少了NeRF融合中的伪影,提升了场景重建的质量。论文中提供了具体的性能指标,例如PSNR、SSIM等,证明了该方法相对于现有方法的优越性。实验结果表明,该方法能够有效地提升NeRF融合的精度和鲁棒性。

🎯 应用场景

该研究成果可应用于城市级三维重建、自动驾驶、虚拟现实、增强现实等领域。通过高精度、无伪影的NeRF融合,可以为这些应用提供更真实、更可靠的场景表示,提升用户体验和系统性能。例如,在自动驾驶中,可以利用该方法构建高精度的城市地图,提高车辆的定位和感知能力。

📄 摘要(原文)

Due to the limited model capacity, leveraging distributed Neural Radiance Fields (NeRFs) for modeling extensive urban environments has become a necessity. However, current distributed NeRF registration approaches encounter aliasing artifacts, arising from discrepancies in rendering resolutions and suboptimal pose precision. These factors collectively deteriorate the fidelity of pose estimation within NeRF frameworks, resulting in occlusion artifacts during the NeRF blending stage. In this paper, we present a distributed NeRF system with tri-stage pose optimization. In the first stage, precise poses of images are achieved by bundle adjusting Mip-NeRF 360 with a coarse-to-fine strategy. In the second stage, we incorporate the inverting Mip-NeRF 360, coupled with the truncated dynamic low-pass filter, to enable the achievement of robust and precise poses, termed Frame2Model optimization. On top of this, we obtain a coarse transformation between NeRFs in different coordinate systems. In the third stage, we fine-tune the transformation between NeRFs by Model2Model pose optimization. After obtaining precise transformation parameters, we proceed to implement NeRF blending, showcasing superior performance metrics in both real-world and simulation scenarios. Codes and data will be publicly available at https://github.com/boilcy/Distributed-NeRF.