Scalable and Generalizable Correspondence Pruning via Geometry-Consistent Pre-training
作者: Tangfei Liao, Xiaoqin Zhang, Tao Wang, Hao Ye, Min Li, Guobao Xiao, Mang Ye
分类: cs.CV
发布日期: 2026-04-07
💡 一句话要点
提出基于几何一致性预训练的可扩展通用对应关系剪枝方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)
关键词: 对应关系剪枝 几何一致性 预训练 掩码自编码器 相机姿态估计
📋 核心要点
- 现有对应关系剪枝方法易受外点干扰,导致模型鲁棒性和泛化性不足。
- 提出几何一致性预训练范式,通过掩码内点重建任务学习不受外点干扰的表征。
- 实验表明,该方法在相机姿态估计、视觉定位和3D配准等任务上显著优于现有方法。
📝 摘要(中文)
双视图对应关系剪枝旨在识别可靠的对应关系,用于相机姿态估计,这是许多3D视觉任务中的一个基本步骤。现有方法依赖于几何一致性来从大量错误对应关系(外点)中寻找真实对应关系(内点)。在这种学习范式中,外点严重影响内点的表征学习,导致模型既不鲁棒也不通用。为了解决这个问题,我们提出了一种几何一致的预训练范式,该范式塑造了不受外点干扰的可扩展和通用表征。该范式具有两个吸引人的特性:1) 几何一致预训练的实现。我们引入了掩码内点重建作为预训练任务,并开发了一个基于掩码自编码器的简单而有效的预训练框架。具体来说,由于对应关系的不规则和无序性质,缺乏显式的位置信息,我们采用双分支结构分别重建两个图像的关键点。这使得能够间接重建4D对应关系,其中来自配对图像的关键点提供位置提示。2) 统一的对应关系编码器。我们提出了一个具有内置共识交互的简单双流编码器,提供了一个统一的、可扩展的架构,增强了表征学习。大量的实验表明,我们的方法GeneralPruner在各种下游任务的鲁棒性和泛化性方面始终优于最先进的方法。具体来说,我们的方法在相机姿态估计、视觉定位和3D配准方面分别实现了10.76%、11.84%和8.65%的性能提升。
🔬 方法详解
问题定义:现有双视图对应关系剪枝方法依赖几何一致性区分内点和外点,但外点的存在严重干扰内点的表征学习,导致模型在复杂场景下鲁棒性和泛化性较差。现有方法难以有效应对大量外点带来的挑战。
核心思路:通过几何一致性预训练,使模型在没有外点干扰的情况下学习内点的表征。具体而言,采用掩码内点重建作为预训练任务,迫使模型学习关键点之间的几何关系,从而获得更鲁棒和通用的特征表示。这种预训练方式旨在使模型在下游任务中更好地识别和利用内点信息。
技术框架:该方法包含一个基于掩码自编码器的预训练框架和一个双流对应关系编码器。预训练阶段,对输入图像的关键点进行掩码,然后利用自编码器重建被掩码的关键点。编码器采用双分支结构,分别处理两张图像的关键点,并通过共识交互模块进行信息融合。在下游任务中,使用预训练的编码器提取特征,并进行对应关系剪枝。
关键创新:核心创新在于提出了几何一致性预训练范式,通过掩码内点重建任务,使模型能够学习不受外点干扰的内点表征。与现有方法直接在包含大量外点的数据上进行训练不同,该方法首先学习内点的几何关系,然后再应用于实际场景,从而提高了模型的鲁棒性和泛化性。
关键设计:采用了双分支结构来处理两张图像的关键点,并通过共识交互模块进行信息融合。掩码比例是影响预训练效果的关键参数,需要根据具体数据集进行调整。损失函数采用重建损失,衡量重建的关键点与原始关键点之间的差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GeneralPruner在相机姿态估计、视觉定位和3D配准等任务上均取得了显著的性能提升。具体而言,在相机姿态估计任务中,性能提升了10.76%;在视觉定位任务中,性能提升了11.84%;在3D配准任务中,性能提升了8.65%。这些结果表明,该方法在鲁棒性和泛化性方面均优于现有方法。
🎯 应用场景
该研究成果可广泛应用于三维重建、视觉定位、增强现实、机器人导航等领域。通过提高对应关系剪枝的准确性和鲁棒性,可以提升这些应用在复杂环境下的性能和可靠性。例如,在自动驾驶中,可以利用该方法提高车辆定位的精度,从而增强驾驶安全性。
📄 摘要(原文)
Two-view correspondence pruning aims to identify reliable correspondences for camera pose estimation, serving as a fundamental step in many 3D vision tasks. Existing methods rely on geometric consistency to seek true correspondences (inliers) from numerous false correspondences (outliers). In this learning paradigm, outliers severely affect the representation learning of inliers, resulting in models that are neither robust nor generalizable. To address this issue, we propose a geometry-consistent pre-training paradigm that sculpts scalable and generalizable representations free from outlier interference. The paradigm features two appealing properties. 1) Implementation of geometry-consistent pre-training. We introduce masked inlier reconstruction as a pretext task and develop a simple yet effective pre-training framework based on a masked autoencoder. Specifically, due to the irregular and unordered nature of correspondences, which lack explicit positional information, we adopt a dual-branch structure that separately reconstructs the keypoints of two images. This enables indirect reconstruction of 4D correspondences, where keypoints from the paired image provide positional prompts. 2) Unified correspondence encoder. We propose a simple dual-stream encoder with built-in consensus interaction, providing a unified, extensible architecture that enhances representation learning. Extensive experiments demonstrate that our method, GeneralPruner, consistently outperforms state-of-the-art approaches in terms of robustness and generalization across various downstream tasks. Specifically, our method achieves 10.76%, 11.84%, and 8.65% performance gains in camera pose estimation, visual localization, and 3D registration, respectively.