NoPe-NeRF++: Local-to-Global Optimization of NeRF with No Pose Prior
作者: Dongbo Shi, Shen Cao, Bojian Wu, Jinhui Guo, Lubin Fan, Renjie Chen, Ligang Liu, Jieping Ye
分类: cs.CV
发布日期: 2025-11-21
期刊: Eurographics 2025
DOI: 10.1111/cgf.70012
💡 一句话要点
NoPe-NeRF++:无需位姿先验的NeRF局部到全局优化
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting)
关键词: 神经辐射场 NeRF 三维重建 位姿估计 集束调整 无位姿先验 局部到全局优化
📋 核心要点
- 现有NoPe-NeRF等方法仅关注图像局部关系,在复杂场景中相机位姿估计精度不足,影响NeRF训练。
- NoPe-NeRF++通过特征匹配初始化位姿,局部联合优化提升位姿质量,并引入全局集束调整进行几何一致性约束。
- 实验表明,NoPe-NeRF++在位姿估计和新视角合成方面均优于现有方法,展现了更强的鲁棒性。
📝 摘要(中文)
本文提出NoPe-NeRF++,一种新颖的局部到全局优化算法,用于训练无需位姿先验的神经辐射场(NeRF)。现有方法,特别是NoPe-NeRF,仅关注图像内的局部关系,在复杂场景中难以恢复准确的相机位姿。为了克服这些挑战,我们的方法首先通过显式特征匹配进行相对位姿初始化,然后进行局部联合优化,以增强位姿估计,从而训练更鲁棒的NeRF表示。该方法显著提高了初始位姿的质量。此外,我们引入了全局优化阶段,通过集束调整(bundle adjustment)整合特征轨迹,从而纳入几何一致性约束,进一步细化位姿并共同提升NeRF的质量。值得注意的是,我们的方法是第一个将局部和全局线索与NeRF无缝结合的工作,并在位姿估计精度和新视角合成方面优于最先进的方法。在基准数据集上的大量评估证明了我们卓越的性能和鲁棒性,即使在具有挑战性的场景中也是如此,从而验证了我们的设计选择。
🔬 方法详解
问题定义:论文旨在解决在没有相机位姿先验的情况下,如何训练高质量的NeRF模型。现有方法,如NoPe-NeRF,主要依赖局部图像信息进行位姿估计,在复杂场景下容易出现位姿漂移,导致NeRF训练效果不佳。这些方法缺乏全局一致性约束,难以保证场景结构的准确重建。
核心思路:论文的核心思路是将局部信息和全局信息相结合,分阶段优化相机位姿和NeRF模型。首先利用特征匹配进行相对位姿初始化,然后通过局部联合优化提升位姿质量,最后引入全局集束调整进行几何一致性约束。这种局部到全局的优化策略能够有效提高位姿估计的准确性和鲁棒性,从而提升NeRF的渲染质量。
技术框架:NoPe-NeRF++的整体框架包含三个主要阶段:1) 相对位姿初始化:利用特征匹配算法(如SIFT、ORB)在图像之间建立对应关系,并估计初始的相对位姿。2) 局部联合优化:以相邻图像对为单位,联合优化相机位姿和NeRF模型。该阶段主要利用局部图像信息,通过最小化光度误差来优化位姿和NeRF参数。3) 全局集束调整:利用所有图像之间的特征轨迹,构建全局的集束调整问题,通过最小化重投影误差来进一步优化相机位姿和NeRF模型。
关键创新:NoPe-NeRF++的关键创新在于将局部优化和全局优化无缝结合,从而充分利用了图像的局部信息和全局几何约束。与现有方法相比,NoPe-NeRF++不仅考虑了相邻图像之间的关系,还考虑了所有图像之间的几何一致性,从而能够更准确地估计相机位姿和重建场景结构。这是首个将局部和全局线索与NeRF结合的工作。
关键设计:在相对位姿初始化阶段,论文采用了RANSAC算法来去除错误的特征匹配。在局部联合优化阶段,论文使用了光度损失函数来衡量NeRF渲染图像与真实图像之间的差异。在全局集束调整阶段,论文使用了稀疏集束调整算法来提高计算效率。损失函数包括光度损失和正则化项,以防止过拟合。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,NoPe-NeRF++在多个基准数据集上均取得了优于现有方法的性能。在位姿估计精度方面,NoPe-NeRF++显著降低了位姿误差。在新视角合成方面,NoPe-NeRF++生成了更清晰、更逼真的图像。具体提升幅度未知,但论文强调了其在具有挑战性场景中的鲁棒性。
🎯 应用场景
NoPe-NeRF++在三维重建、虚拟现实、增强现实等领域具有广泛的应用前景。它可以用于创建高质量的3D模型,生成逼真的虚拟场景,以及实现精确的AR/VR体验。该方法尤其适用于缺乏位姿先验信息的场景,例如从互联网照片或视频中重建三维场景。
📄 摘要(原文)
In this paper, we introduce NoPe-NeRF++, a novel local-to-global optimization algorithm for training Neural Radiance Fields (NeRF) without requiring pose priors. Existing methods, particularly NoPe-NeRF, which focus solely on the local relationships within images, often struggle to recover accurate camera poses in complex scenarios. To overcome the challenges, our approach begins with a relative pose initialization with explicit feature matching, followed by a local joint optimization to enhance the pose estimation for training a more robust NeRF representation. This method significantly improves the quality of initial poses. Additionally, we introduce global optimization phase that incorporates geometric consistency constraints through bundle adjustment, which integrates feature trajectories to further refine poses and collectively boost the quality of NeRF. Notably, our method is the first work that seamlessly combines the local and global cues with NeRF, and outperforms state-of-the-art methods in both pose estimation accuracy and novel view synthesis. Extensive evaluations on benchmark datasets demonstrate our superior performance and robustness, even in challenging scenes, thus validating our design choices.