ACE-G: Improving Generalization of Scene Coordinate Regression Through Query Pre-Training

📄 arXiv: 2510.11605v1 📥 PDF

作者: Leonard Bruns, Axel Barroso-Laguna, Tommaso Cavallari, Áron Monszpart, Sowmya Munukutla, Victor Adrian Prisacariu, Eric Brachmann

分类: cs.CV

发布日期: 2025-10-13

备注: ICCV 2025, Project page: https://nianticspatial.github.io/ace-g/


💡 一句话要点

ACE-G:通过查询预训练提升场景坐标回归的泛化能力

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 场景坐标回归 视觉重定位 Transformer 预训练 泛化能力

📋 核心要点

  1. 现有场景坐标回归方法在成像条件变化时泛化能力不足,容易过拟合训练数据。
  2. 提出将坐标回归器和场景地图表示解耦,利用预训练的Transformer学习泛化能力。
  3. 实验表明,该方法在多个数据集上显著提升了重定位的鲁棒性,并保持了较低的计算成本。

📝 摘要(中文)

场景坐标回归(SCR)已成为一种有前景的基于学习的视觉重定位方法。经过几分钟的特定场景训练后,SCR模型能够高精度地估计查询图像的相机姿态。然而,SCR方法在泛化能力方面不如更经典的特征匹配方法。当查询图像的成像条件(如光照或视角)与训练视图差异过大时,SCR模型会失效。无法泛化是先前SCR框架的一个固有局限性,因为它们的训练目标是将训练视图编码到坐标回归器的权重中,本质上是过度拟合训练视图。我们提出将坐标回归器和地图表示分离为通用Transformer和特定场景的地图编码。这种分离使我们能够在数万个场景上预训练Transformer。更重要的是,它允许我们训练Transformer在预训练期间从映射图像泛化到未见过的查询图像。我们在多个具有挑战性的重定位数据集上证明,我们的方法ACE-G显著提高了鲁棒性,同时保持了吸引人的计算量。

🔬 方法详解

问题定义:场景坐标回归(SCR)在视觉重定位中表现出色,但其泛化能力受限。当查询图像的光照、视角等条件与训练图像差异较大时,SCR模型性能显著下降。这是因为传统的SCR方法将场景信息直接编码到回归器的权重中,导致模型过度拟合特定场景的训练数据。

核心思路:为了解决泛化性问题,论文的核心思路是将坐标回归器和场景地图表示解耦。具体来说,使用一个通用的Transformer作为坐标回归器,负责学习图像特征到坐标的映射关系,而场景地图则被编码为特定场景的地图编码。通过这种解耦,Transformer可以独立于特定场景进行预训练,从而学习到更通用的图像特征表示和坐标回归能力。

技术框架:ACE-G方法的整体框架包含两个主要部分:预训练阶段和场景特定训练阶段。在预训练阶段,Transformer在一个大规模的场景数据集上进行训练,学习从图像特征到坐标的通用映射关系。在场景特定训练阶段,使用少量目标场景的图像数据,训练一个场景特定的地图编码,该编码与预训练的Transformer结合,完成特定场景的重定位任务。

关键创新:ACE-G的关键创新在于将坐标回归器和场景地图表示解耦,并利用预训练的Transformer学习通用的图像特征表示和坐标回归能力。这种方法避免了传统SCR方法过度拟合特定场景的问题,从而显著提高了模型的泛化能力。

关键设计:Transformer的预训练目标是学习从映射图像到未见过的查询图像的泛化能力。具体实现细节未知,但可以推测可能使用了对比学习或生成对抗网络等技术来增强模型的泛化能力。场景特定训练阶段,地图编码的具体形式和训练方式未知,但需要保证其能够有效地表示特定场景的几何信息。

🖼️ 关键图片

img_0

📊 实验亮点

ACE-G在多个具有挑战性的重定位数据集上进行了评估,实验结果表明,该方法显著提高了重定位的鲁棒性,尤其是在成像条件与训练数据差异较大的情况下。具体的性能提升数据未知,但摘要中强调了“显著提高鲁棒性”,表明ACE-G在泛化能力方面取得了重要进展。

🎯 应用场景

该研究成果可应用于增强现实、机器人导航、自动驾驶等领域。通过提高视觉重定位的鲁棒性和泛化能力,可以使这些应用在更复杂的环境中稳定运行。例如,在光照条件变化剧烈的室内环境中,机器人可以更准确地进行定位和导航。

📄 摘要(原文)

Scene coordinate regression (SCR) has established itself as a promising learning-based approach to visual relocalization. After mere minutes of scene-specific training, SCR models estimate camera poses of query images with high accuracy. Still, SCR methods fall short of the generalization capabilities of more classical feature-matching approaches. When imaging conditions of query images, such as lighting or viewpoint, are too different from the training views, SCR models fail. Failing to generalize is an inherent limitation of previous SCR frameworks, since their training objective is to encode the training views in the weights of the coordinate regressor itself. The regressor essentially overfits to the training views, by design. We propose to separate the coordinate regressor and the map representation into a generic transformer and a scene-specific map code. This separation allows us to pre-train the transformer on tens of thousands of scenes. More importantly, it allows us to train the transformer to generalize from mapping images to unseen query images during pre-training. We demonstrate on multiple challenging relocalization datasets that our method, ACE-G, leads to significantly increased robustness while keeping the computational footprint attractive.