R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual Localization

作者: Xudong Jiang, Fangjinhua Wang, Silvano Galliani, Christoph Vogel, Marc Pollefeys

分类: cs.CV

发布日期: 2025-01-02 (更新: 2025-04-10)

备注: CVPR 2025 camera ready. Code: https://github.com/cvg/scrstudio

🔗 代码/项目: GITHUB

💡 一句话要点

R-SCoRe：通过改进场景坐标回归，实现鲁棒的大规模视觉定位

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction)

关键词: 视觉定位 场景坐标回归 全局编码 共视关系图 深度学习

📋 核心要点

现有场景坐标回归（SCR）方法在复杂光照和图像歧义场景下鲁棒性不足，限制了其在大规模视觉定位中的应用。
论文提出基于共视关系图的全局编码学习和数据增强策略，并结合深度调整的重投影损失，提升定位精度和鲁棒性。
实验表明，该方法在Aachen Day-Night数据集上显著优于现有SCR方法，精度提升10倍，地图尺寸缩小5倍以上。

📝 摘要（中文）

基于学习的视觉定位方法，特别是场景坐标回归（SCR），具有地图尺寸小的优势。然而，在光照变化复杂或图像级别存在歧义的数据集上，其鲁棒性不如特征匹配方法。本文旨在弥合这一差距。我们引入了基于共视关系图的全局编码学习和数据增强策略，以及深度调整的重投影损失，以促进隐式三角化。此外，我们重新审视了网络架构和局部特征提取模块。我们的方法在具有挑战性的大规模数据集上实现了最先进的性能，而无需依赖网络集成或3D监督。在Aachen Day-Night数据集上，我们的精度是先前具有相似地图尺寸的SCR方法的10倍，并且所需的地图尺寸比任何其他SCR方法小至少5倍，同时仍能提供卓越的精度。

🔬 方法详解

问题定义：论文旨在解决大规模视觉定位中，场景坐标回归（SCR）方法在复杂光照变化和图像歧义场景下鲁棒性不足的问题。现有SCR方法难以应对这些挑战，导致定位精度下降，限制了其在实际应用中的潜力。

核心思路：论文的核心思路是通过引入全局上下文信息和深度信息来增强SCR模型的鲁棒性。具体来说，利用共视关系图学习全局编码，从而更好地理解场景的整体结构；同时，利用深度调整的重投影损失来约束场景坐标的预测，从而提高定位精度。

技术框架：整体框架包括以下几个主要模块：1) 局部特征提取模块：用于提取图像的局部特征。2) 全局编码学习模块：利用共视关系图学习全局场景编码。3) 场景坐标回归模块：基于局部特征和全局编码，预测图像中像素点的场景坐标。4) 深度调整的重投影损失：利用深度信息约束场景坐标的预测。

关键创新：论文的关键创新在于：1) 提出了基于共视关系图的全局编码学习方法，能够有效地捕捉场景的全局上下文信息。2) 引入了深度调整的重投影损失，能够利用深度信息来约束场景坐标的预测，提高定位精度。3) 重新审视了网络架构和局部特征提取模块，进一步提升了模型的性能。

关键设计：1) 共视关系图的构建：利用SfM（Structure from Motion）重建结果构建共视关系图，节点表示图像，边表示图像之间的共视关系。2) 全局编码学习：使用图神经网络（GNN）学习每个节点的全局编码，GNN的输入是局部特征，输出是全局编码。3) 深度调整的重投影损失：利用预测的场景坐标和相机位姿，将图像中的像素点重投影到3D空间中，然后计算重投影误差，并利用深度信息对重投影误差进行加权。

🖼️ 关键图片

📊 实验亮点

该方法在Aachen Day-Night数据集上取得了显著的性能提升。与之前的SCR方法相比，精度提高了10倍，并且地图尺寸缩小了5倍以上。此外，该方法在不依赖网络集成和3D监督的情况下，仍然能够达到最先进的性能，证明了其有效性和实用性。

🎯 应用场景

该研究成果可应用于增强现实、机器人导航、自动驾驶等领域。通过提高视觉定位的精度和鲁棒性，可以为这些应用提供更可靠的环境感知能力。未来，该方法有望应用于更大规模、更复杂的场景，推动相关技术的发展。

📄 摘要（原文）

Learning-based visual localization methods that use scene coordinate regression (SCR) offer the advantage of smaller map sizes. However, on datasets with complex illumination changes or image-level ambiguities, it remains a less robust alternative to feature matching methods. This work aims to close the gap. We introduce a covisibility graph-based global encoding learning and data augmentation strategy, along with a depth-adjusted reprojection loss to facilitate implicit triangulation. Additionally, we revisit the network architecture and local feature extraction module. Our method achieves state-of-the-art on challenging large-scale datasets without relying on network ensembles or 3D supervision. On Aachen Day-Night, we are 10$\times$ more accurate than previous SCR methods with similar map sizes and require at least 5$\times$ smaller map sizes than any other SCR method while still delivering superior accuracy. Code is available at: https://github.com/cvg/scrstudio .

R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual Localization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理