DualGeo: A Dual-View Framework for Worldwide Image Geo-localization

📄 arXiv: 2604.25533v1 📥 PDF

作者: Junchao Cui, Wenqi Shi, Shaoyong Du, Hang He, Xuanzi Ma, Hao Tang, Xiangyang Luo

分类: cs.CV

发布日期: 2026-04-28

备注: ICME2026 Accept

🔗 代码/项目: GITHUB


💡 一句话要点

DualGeo:用于全球图像地理定位的双视角框架,提升定位精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像地理定位 双视角学习 对比学习 语义分割 多模态融合 地理聚类 大型多模态模型

📋 核心要点

  1. 现有全球图像地理定位方法易受环境因素影响,且缺乏有效的异常值过滤机制,导致定位精度受限。
  2. DualGeo框架通过融合图像和语义信息,并利用双视角对比学习构建地理表征,提升了特征的鲁棒性。
  3. 实验结果表明,DualGeo在多个数据集上显著优于现有方法,尤其在街道和城市级别的定位精度上。

📝 摘要(中文)

全球图像地理定位旨在推断地球上任意位置拍摄的图像的地理位置,范围涵盖街道、城市、区域、国家和大陆尺度。现有方法依赖于对环境变化(如光照、季节和天气)敏感的视觉特征,并且缺乏有效的后处理来过滤异常候选位置,从而限制了定位精度。为了解决这些限制,我们提出了DualGeo,一个用于全球图像地理定位的两阶段框架。首先,它通过双向交叉注意力融合图像和语义分割特征,建立地理表征基础。然后,通过双视角对比学习将融合特征与GPS坐标对齐,以构建全局检索数据库。其次,它通过使用地理聚类重新排序检索到的候选位置来执行地理认知细化。然后,将它们输入到大型多模态模型(LMM)中以进行最终坐标预测。在IM2GPS、IM2GPS3k和YFCC4k上的实验表明,DualGeo优于最先进的方法,将街道级别(<1 km)和城市级别(<25 km)的定位精度分别提高了3.6%-16.58%和1.29%-8.77%。我们的代码和数据集可在https://github.com/CJ310177/DualGeo 获取。

🔬 方法详解

问题定义:全球图像地理定位旨在根据图像内容推断其拍摄地点。现有方法主要依赖视觉特征,但这些特征容易受到光照、季节、天气等环境因素的影响,导致定位精度下降。此外,现有方法缺乏有效的后处理机制来过滤错误的候选位置,进一步限制了性能。

核心思路:DualGeo的核心思路是构建一个更鲁棒的地理表征,并利用地理信息进行后处理细化。通过融合图像的视觉特征和语义分割信息,可以获得对环境变化更不敏感的特征表示。双视角对比学习用于将图像特征与GPS坐标对齐,从而建立准确的检索数据库。地理聚类和大型多模态模型则用于对检索结果进行细化,提高最终的定位精度。

技术框架:DualGeo框架包含两个主要阶段:地理表征构建和地理认知细化。在地理表征构建阶段,首先使用双向交叉注意力机制融合图像和语义分割特征。然后,通过双视角对比学习将融合后的特征与GPS坐标进行对齐,构建全局检索数据库。在地理认知细化阶段,首先使用地理聚类对检索到的候选位置进行重新排序。然后,将重新排序后的候选位置输入到大型多模态模型中,以预测最终的坐标。

关键创新:DualGeo的关键创新在于以下几点:1) 融合图像和语义分割特征,构建更鲁棒的地理表征;2) 采用双视角对比学习,更好地对齐图像特征和GPS坐标;3) 利用地理聚类和大型多模态模型进行后处理细化,提高定位精度。与现有方法相比,DualGeo更注重特征的鲁棒性和后处理的有效性。

关键设计:在双向交叉注意力机制中,图像特征和语义分割特征相互增强,从而获得更全面的信息。双视角对比学习使用图像特征和GPS坐标作为两个视角,通过最大化它们之间的一致性来学习更好的特征表示。地理聚类使用候选位置的地理坐标进行聚类,从而识别出更可靠的候选区域。大型多模态模型则利用图像和地理信息进行联合推理,预测最终的坐标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DualGeo在IM2GPS、IM2GPS3k和YFCC4k数据集上取得了显著的性能提升。在街道级别(<1 km)的定位精度上,DualGeo相比现有方法提高了3.6%-16.58%。在城市级别(<25 km)的定位精度上,DualGeo提高了1.29%-8.77%。这些结果表明,DualGeo能够有效地提高全球图像地理定位的精度。

🎯 应用场景

该研究成果可应用于自动驾驶、增强现实、城市规划、环境监测、灾害救援等领域。例如,在自动驾驶中,可以利用图像地理定位技术来辅助车辆导航和定位。在增强现实中,可以将虚拟内容与真实场景进行精确对齐。在灾害救援中,可以快速确定受灾区域的位置,从而提高救援效率。

📄 摘要(原文)

Worldwide image geo-localization aims to infer the geographic location of an image captured anywhere on Earth, spanning street, city, regional, national, and continental scales. Existing methods rely on visual features that are sensitive to environmental variations (e.g., lighting, season, and weather) and lack effective post-processing to filter outlier candidates, limiting localization accuracy. To address these limitations, we propose DualGeo, a two-stage framework for worldwide image geo-localization. First, it establishes a geo-representational foundation by fusing image and semantic segmentation features via bidirectional cross-attention. The fused features are then aligned with GPS coordinates through dual-view contrastive learning to build a global retrieval database. Second, it performs geo-cognitive refinement by re-ranking retrieved candidates using geographic clustering. It then feeds them into large multimodal models (LMMs) for final coordinate prediction. Experiments on IM2GPS, IM2GPS3k, and YFCC4k show that DualGeo outperforms state-of-the-art methods, improving street-level (<1 km) and city-level (<25 km) localization accuracy by 3.6%-16.58% and 1.29%-8.77%, respectively. Our code and datasets are available : https://github.com/CJ310177/DualGeo.