UniABG: Unified Adversarial View Bridging and Graph Correspondence for Unsupervised Cross-View Geo-Localization
作者: Cuiqun Chen, Qi Chen, Bin Yang, Xingyi Zhang
分类: cs.CV
发布日期: 2025-11-15
备注: Accepted as Oral Presentation at AAAI 2026. 10 pages, 9 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出UniABG,通过对抗视角桥接和图对应校准实现无监督跨视角地理定位
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 跨视角地理定位 无监督学习 对抗学习 图神经网络 领域自适应
📋 核心要点
- 跨视角地理定位面临跨视角差异导致的伪标签噪声问题,限制了无监督方法的性能。
- UniABG通过视角感知对抗桥接建模视角不变特征,并利用异构图滤波校准跨视角对应关系。
- 实验表明,UniABG在两个数据集上显著提升了无监督跨视角地理定位的性能,甚至超越了有监督方法。
📝 摘要(中文)
跨视角地理定位(CVGL)旨在将查询图像(例如无人机图像)与地理上对应的相反视角图像(例如卫星图像)进行匹配。有监督方法虽然性能强大,但对大量成对标注的依赖限制了其可扩展性。无监督方法避免了标注成本,但由于固有的跨视角领域差距,会受到噪声伪标签的影响。为了解决这些限制,我们提出了UniABG,一种新颖的双阶段无监督跨视角地理定位框架,它集成了对抗视角桥接和基于图的对应校准。我们的方法首先采用视角感知对抗桥接(VAAB)来建模视角不变特征并增强伪标签的鲁棒性。随后,异构图滤波校准(HGFC)通过构建双重视角间结构图来细化跨视角关联,从而实现可靠的视角对应。大量实验表明,UniABG具有最先进的无监督性能,在University-1652数据集上,Satellite → Drone AP提高了+10.63%,在SUES-200数据集上提高了+16.73%,甚至超过了有监督的基线。
🔬 方法详解
问题定义:跨视角地理定位旨在解决不同视角(如卫星和无人机)图像之间的匹配问题。现有无监督方法依赖伪标签进行训练,但由于视角差异和数据分布偏移,生成的伪标签通常包含大量噪声,严重影响模型性能。现有方法难以有效利用跨视角图像之间的结构信息,导致匹配精度不高。
核心思路:UniABG的核心思路是分阶段地提升跨视角特征的视角不变性和对应关系的准确性。首先,通过对抗学习缩小视角差异,生成更可靠的伪标签。然后,利用图结构建模跨视角图像之间的关系,并通过图滤波校准伪标签,进一步提高匹配精度。这种分阶段的方法能够有效地缓解跨视角差异带来的挑战。
技术框架:UniABG框架包含两个主要阶段:视角感知对抗桥接(VAAB)和异构图滤波校准(HGFC)。VAAB阶段通过对抗学习,使不同视角的特征分布对齐,从而生成更鲁棒的视角不变特征。HGFC阶段构建双重视角间结构图,利用图滤波算法对跨视角对应关系进行校准,从而提高匹配的准确性。整体流程是先通过VAAB生成初始的伪标签,然后通过HGFC对伪标签进行优化。
关键创新:UniABG的关键创新在于将对抗学习和图结构学习相结合,用于解决无监督跨视角地理定位问题。VAAB模块通过对抗学习显式地建模视角不变特征,有效地缩小了跨视角差异。HGFC模块利用图结构建模跨视角图像之间的关系,并通过图滤波算法对伪标签进行校准,从而提高了匹配的准确性。这种结合对抗学习和图结构学习的方法是现有方法所缺乏的。
关键设计:VAAB模块采用梯度反转层(GRL)实现对抗学习,损失函数包括特征提取器的损失、视角分类器的损失和对抗损失。HGFC模块构建了两个图:一个基于特征相似度的图和一个基于地理邻近度的图。图滤波算法采用加权平均的方式更新节点的特征,权重由图的邻接矩阵决定。实验中,对抗学习的超参数和图滤波的迭代次数需要仔细调整,以达到最佳性能。
📊 实验亮点
UniABG在University-1652和SUES-200两个数据集上取得了显著的性能提升。在University-1652数据集上,Satellite → Drone AP提高了+10.63%,在SUES-200数据集上提高了+16.73%。更重要的是,UniABG的性能甚至超过了有监督的基线方法,证明了其在无监督跨视角地理定位方面的优越性。这些结果表明,通过对抗视角桥接和图对应校准,可以有效地提高无监督跨视角地理定位的性能。
🎯 应用场景
该研究成果可应用于城市规划、灾害评估、环境监测、自动驾驶等领域。通过将无人机图像与卫星图像进行匹配,可以实现快速、准确的地理定位和场景理解,为相关应用提供重要的技术支持。未来,该技术有望扩展到更多跨模态、跨视角的应用场景,例如将街景图像与航空图像进行匹配。
📄 摘要(原文)
Cross-view geo-localization (CVGL) matches query images ($\textit{e.g.}$, drone) to geographically corresponding opposite-view imagery ($\textit{e.g.}$, satellite). While supervised methods achieve strong performance, their reliance on extensive pairwise annotations limits scalability. Unsupervised alternatives avoid annotation costs but suffer from noisy pseudo-labels due to intrinsic cross-view domain gaps. To address these limitations, we propose $\textit{UniABG}$, a novel dual-stage unsupervised cross-view geo-localization framework integrating adversarial view bridging with graph-based correspondence calibration. Our approach first employs View-Aware Adversarial Bridging (VAAB) to model view-invariant features and enhance pseudo-label robustness. Subsequently, Heterogeneous Graph Filtering Calibration (HGFC) refines cross-view associations by constructing dual inter-view structure graphs, achieving reliable view correspondence. Extensive experiments demonstrate state-of-the-art unsupervised performance, showing that UniABG improves Satellite $\rightarrow$ Drone AP by +10.63\% on University-1652 and +16.73\% on SUES-200, even surpassing supervised baselines. The source code is available at https://github.com/chenqi142/UniABG