BGG: Bridging the Geometric Gap between Cross-View images by Vision Foundation Model Adaptation for Geo-Localization
作者: Wei Wang, Dou Quan, Ning Huyan, Shuang Wang, Yi Li, Pei He, Licheng Jiao
分类: cs.CV
发布日期: 2026-05-11
💡 一句话要点
提出BGG框架,通过视觉基础模型适配弥合跨视角图像间的几何差异,提升地理定位性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 跨视角地理定位 视觉基础模型 参数高效微调 特征增强 频域分析 计算机视觉
📋 核心要点
- 跨视角图像(如无人机与卫星图)存在巨大的几何差异,导致传统特征提取方法难以在不同视角间建立鲁棒的对应关系。
- 提出BGG框架,利用视觉基础模型(VFM)的通用表征,通过MFEA增强尺度适应性,并利用FASA在频域优化局部结构特征。
- 在University-1652和SUES-200数据集上实现SOTA性能,证明了该方法在低训练成本下具备极强的跨视角定位能力。
📝 摘要(中文)
跨视角图像(如无人机视角与卫星视角)之间的几何差异显著增加了跨视角地理定位(CVGL)的难度,该任务旨在通过图像检索获取地理位置。为进一步提升CVGL性能,本文提出了一种基于视觉基础模型(VFM,如DINOv3)的参数高效适配框架——BGG。BGG不仅有效利用了VFM的通用视觉表征,捕获了跨视角图像间鲁棒且一致的特征,还发挥了VFM的泛化能力,显著提升了定位性能。该框架主要包含多粒度特征增强适配器(MFEA)和频率感知结构聚合(FASA)模块。MFEA通过多级空心卷积增强了特征的尺度适应性和视角鲁棒性,以低训练成本有效弥合了跨视角几何鸿沟。此外,考虑到[CLS] token缺乏精确检索所需的空间细节,FASA模块在频域对patch token进行调制,并执行自适应聚合以增强局部结构特征。最后,BGG将增强后的局部特征与[CLS] token融合,实现了更精确的地理定位。在University-1652和SUES-200数据集上的实验表明,BGG在保持低训练成本的同时,显著优于现有方法并达到了SOTA水平。
🔬 方法详解
问题定义:论文旨在解决跨视角地理定位(CVGL)中因无人机视角与卫星视角存在显著几何形变、尺度差异及视角偏差,导致特征匹配困难的问题,现有方法往往难以在保持低计算成本的同时提取鲁棒的跨视角一致性特征。
核心思路:利用预训练视觉基础模型(VFM)强大的通用特征提取能力,通过参数高效的适配器(Adapter)进行微调,在不破坏预训练权重的前提下,专门针对跨视角几何差异进行特征对齐与增强。
技术框架:整体架构基于VFM(如DINOv3),引入MFEA模块对特征进行多尺度增强,利用FASA模块在频域对patch token进行结构化调制,最后将增强的局部特征与全局[CLS] token融合,生成用于检索的最终特征表示。
关键创新:引入了MFEA(多粒度特征增强适配器)和FASA(频率感知结构聚合)模块。MFEA通过多级空心卷积解决尺度适应性问题;FASA通过频域调制弥补了[CLS] token在空间细节上的缺失,实现了全局与局部特征的有效互补。
关键设计:MFEA采用多级空心卷积(Dilated Convolutions)捕获不同感受野的特征;FASA模块通过傅里叶变换或相关频域操作对patch token进行处理,实现对局部结构信息的自适应聚合,从而提升检索精度。
🖼️ 关键图片
📊 实验亮点
BGG在University-1652和SUES-200数据集上均取得了State-of-the-Art(SOTA)性能。实验结果表明,相比于传统的微调方法,BGG在显著降低训练参数量和计算成本的同时,在Recall@1等核心指标上实现了大幅提升,验证了其在处理复杂跨视角几何差异时的优越性。
🎯 应用场景
该研究主要应用于无人机自主导航、卫星遥感图像分析及地理信息系统(GIS)。通过实现跨视角图像的精准匹配,可为无人机在无GPS环境下的定位提供技术支撑,并在城市规划、灾害评估及军事侦察等领域具有重要的实际应用价值。
📄 摘要(原文)
Geometric differences between cross-view images, such as drone and satellite views, significantly increase the challenge of Cross-View Geo-Localization (CVGL), which aims to acquire the geolocation of images by image retrieval. To further enhance the CVGL performance, this paper proposes a parameter-efficient adaptation framework for bridging the geometric gap across images based on the vision foundation model (VFM) (e.g., DINOv3), termed BGG. BGG not only effectively leverages the general visual representations of VFM and captures the robust and consistent features from cross-view images, but also utilizes the generalization capabilities of the VFM, significantly improving the CVGL performance. It mainly contains a Multi-granularity Feature Enhancement Adapter (MFEA) and a Frequency-Aware Structural Aggregation (FASA) module. Specifically, MFEA enhances the scale adaptability and viewpoint robustness of features by multi-level dilated convolutions, effectively bridging the cross-view geometric gap with small training costs. Additionally, considering the [CLS] token lacks spatial details for precise image retrieval and localization, the FASA module modulates patch tokens in the frequency domain and performs adaptive aggregation for local structural feature enhancement. Finally, BGG fuses the enhanced local features with the [CLS] token for more accurate CVGL. Extensive experiments on University-1652 and SUES-200 datasets demonstrate that BGG has significant advantages over other methods and achieves state-of-the-art localization performance with low training costs.