R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual Localization

📄 arXiv: 2501.01421v2 📥 PDF

作者: Xudong Jiang, Fangjinhua Wang, Silvano Galliani, Christoph Vogel, Marc Pollefeys

分类: cs.CV

发布日期: 2025-01-02 (更新: 2025-04-10)

备注: CVPR 2025 camera ready. Code: https://github.com/cvg/scrstudio

🔗 代码/项目: GITHUB


💡 一句话要点

R-SCoRe:通过改进场景坐标回归,实现鲁棒的大规模视觉定位

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 视觉定位 场景坐标回归 全局编码 共视关系图 深度学习

📋 核心要点

  1. 现有场景坐标回归(SCR)方法在复杂光照和图像歧义场景下鲁棒性不足,限制了其在大规模视觉定位中的应用。
  2. 论文提出基于共视关系图的全局编码学习和数据增强策略,并结合深度调整的重投影损失,提升定位精度和鲁棒性。
  3. 实验表明,该方法在Aachen Day-Night数据集上显著优于现有SCR方法,精度提升10倍,地图尺寸缩小5倍以上。

📝 摘要(中文)

基于学习的视觉定位方法,特别是场景坐标回归(SCR),具有地图尺寸小的优势。然而,在光照变化复杂或图像级别存在歧义的数据集上,其鲁棒性不如特征匹配方法。本文旨在弥合这一差距。我们引入了基于共视关系图的全局编码学习和数据增强策略,以及深度调整的重投影损失,以促进隐式三角化。此外,我们重新审视了网络架构和局部特征提取模块。我们的方法在具有挑战性的大规模数据集上实现了最先进的性能,而无需依赖网络集成或3D监督。在Aachen Day-Night数据集上,我们的精度是先前具有相似地图尺寸的SCR方法的10倍,并且所需的地图尺寸比任何其他SCR方法小至少5倍,同时仍能提供卓越的精度。

🔬 方法详解

问题定义:论文旨在解决大规模视觉定位中,场景坐标回归(SCR)方法在复杂光照变化和图像歧义场景下鲁棒性不足的问题。现有SCR方法难以应对这些挑战,导致定位精度下降,限制了其在实际应用中的潜力。

核心思路:论文的核心思路是通过引入全局上下文信息和深度信息来增强SCR模型的鲁棒性。具体来说,利用共视关系图学习全局编码,从而更好地理解场景的整体结构;同时,利用深度调整的重投影损失来约束场景坐标的预测,从而提高定位精度。

技术框架:整体框架包括以下几个主要模块:1) 局部特征提取模块:用于提取图像的局部特征。2) 全局编码学习模块:利用共视关系图学习全局场景编码。3) 场景坐标回归模块:基于局部特征和全局编码,预测图像中像素点的场景坐标。4) 深度调整的重投影损失:利用深度信息约束场景坐标的预测。

关键创新:论文的关键创新在于:1) 提出了基于共视关系图的全局编码学习方法,能够有效地捕捉场景的全局上下文信息。2) 引入了深度调整的重投影损失,能够利用深度信息来约束场景坐标的预测,提高定位精度。3) 重新审视了网络架构和局部特征提取模块,进一步提升了模型的性能。

关键设计:1) 共视关系图的构建:利用SfM(Structure from Motion)重建结果构建共视关系图,节点表示图像,边表示图像之间的共视关系。2) 全局编码学习:使用图神经网络(GNN)学习每个节点的全局编码,GNN的输入是局部特征,输出是全局编码。3) 深度调整的重投影损失:利用预测的场景坐标和相机位姿,将图像中的像素点重投影到3D空间中,然后计算重投影误差,并利用深度信息对重投影误差进行加权。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在Aachen Day-Night数据集上取得了显著的性能提升。与之前的SCR方法相比,精度提高了10倍,并且地图尺寸缩小了5倍以上。此外,该方法在不依赖网络集成和3D监督的情况下,仍然能够达到最先进的性能,证明了其有效性和实用性。

🎯 应用场景

该研究成果可应用于增强现实、机器人导航、自动驾驶等领域。通过提高视觉定位的精度和鲁棒性,可以为这些应用提供更可靠的环境感知能力。未来,该方法有望应用于更大规模、更复杂的场景,推动相关技术的发展。

📄 摘要(原文)

Learning-based visual localization methods that use scene coordinate regression (SCR) offer the advantage of smaller map sizes. However, on datasets with complex illumination changes or image-level ambiguities, it remains a less robust alternative to feature matching methods. This work aims to close the gap. We introduce a covisibility graph-based global encoding learning and data augmentation strategy, along with a depth-adjusted reprojection loss to facilitate implicit triangulation. Additionally, we revisit the network architecture and local feature extraction module. Our method achieves state-of-the-art on challenging large-scale datasets without relying on network ensembles or 3D supervision. On Aachen Day-Night, we are 10$\times$ more accurate than previous SCR methods with similar map sizes and require at least 5$\times$ smaller map sizes than any other SCR method while still delivering superior accuracy. Code is available at: https://github.com/cvg/scrstudio .