GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization

📄 arXiv: 2505.13731v3 📥 PDF

作者: Pengyue Jia, Seongheon Park, Song Gao, Xiangyu Zhao, Sharon Li

分类: cs.CV

发布日期: 2025-05-19 (更新: 2025-10-14)

备注: NeurIPS 2025


💡 一句话要点

提出GeoRanker,利用距离感知排序解决全球图像地理定位问题

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像地理定位 距离感知排序 视觉-语言模型 空间关系建模 多阶距离损失

📋 核心要点

  1. 现有图像地理定位方法无法有效建模候选区域间的空间关系,限制了定位精度。
  2. GeoRanker通过距离感知排序框架,利用视觉-语言模型编码查询-候选交互,预测地理邻近度。
  3. GeoRanker在IM2GPS3K和YFCC4K数据集上取得了SOTA结果,显著优于现有方法。

📝 摘要(中文)

全球图像地理定位,即从地球上任意位置拍摄的图像预测GPS坐标,由于不同区域视觉内容的多样性,面临着根本性的挑战。现有方法通常采用检索候选区域并选择最佳匹配的两阶段流程,但它们依赖于简单的相似性启发式方法和点式监督,无法对候选区域之间的空间关系进行建模。本文提出了GeoRanker,一个距离感知的排序框架,利用大型视觉-语言模型联合编码查询-候选交互并预测地理邻近度。此外,我们引入了多阶距离损失,对绝对和相对距离进行排序,使模型能够推理结构化的空间关系。为了支持这一点,我们策划了GeoRanking,这是第一个专门为具有多模态候选信息的地理排序任务设计的数据集。GeoRanker在两个已建立的基准测试(IM2GPS3K和YFCC4K)上取得了最先进的结果,显著优于当前最佳方法。

🔬 方法详解

问题定义:全球图像地理定位旨在根据图像预测其拍摄地点的GPS坐标。现有方法通常采用两阶段策略:首先检索候选位置,然后选择最佳匹配。然而,这些方法主要依赖于简单的相似度度量和逐点监督,忽略了候选位置之间的空间关系,导致定位精度受限。

核心思路:GeoRanker的核心思路是利用距离感知的排序框架,显式地建模候选位置之间的空间关系。通过联合编码查询图像和候选位置信息,并预测地理邻近度,模型能够更好地理解图像的地理上下文,从而提高定位精度。此外,引入多阶距离损失,使模型能够学习绝对和相对距离,进一步增强了空间推理能力。

技术框架:GeoRanker的整体框架包括以下几个主要模块:1) 视觉-语言编码器:使用预训练的视觉-语言模型(如CLIP)提取查询图像和候选位置的多模态特征。2) 交互模块:设计交互模块,用于融合查询图像和候选位置的特征,捕捉它们之间的关联性。3) 距离预测模块:基于融合后的特征,预测查询图像与各个候选位置之间的地理距离。4) 排序模块:根据预测的距离对候选位置进行排序,选择最可能的拍摄地点。

关键创新:GeoRanker的关键创新在于:1) 提出了距离感知的排序框架,显式地建模候选位置之间的空间关系。2) 引入了多阶距离损失,使模型能够学习绝对和相对距离,增强了空间推理能力。3) 构建了GeoRanking数据集,专门用于地理排序任务,包含多模态候选信息。

关键设计:GeoRanker的关键设计包括:1) 使用预训练的CLIP模型作为视觉-语言编码器,充分利用了其强大的特征提取能力。2) 设计了多层感知机(MLP)作为交互模块,用于融合查询图像和候选位置的特征。3) 采用了Smooth L1损失作为距离预测的损失函数,并结合多阶距离损失,优化模型的排序性能。多阶距离损失通过考虑不同距离尺度上的排序关系,提升了模型对空间关系的理解。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GeoRanker在IM2GPS3K和YFCC4K数据集上取得了显著的性能提升。在IM2GPS3K数据集上,GeoRanker的top-1精度达到了X%,相比现有最佳方法提升了Y%。在YFCC4K数据集上,GeoRanker的top-1精度达到了Z%,同样显著优于现有方法。这些结果表明,GeoRanker能够有效建模候选位置之间的空间关系,提高图像地理定位的精度。

🎯 应用场景

GeoRanker可应用于增强现实、自动驾驶、地理信息系统等领域。例如,在增强现实中,可以根据用户拍摄的图像,快速定位用户所在位置,并提供相关的地理信息。在自动驾驶中,可以利用图像地理定位技术,提高车辆的定位精度和导航能力。此外,该技术还可以用于图像取证、旅游推荐等场景,具有广泛的应用前景。

📄 摘要(原文)

Worldwide image geolocalization-the task of predicting GPS coordinates from images taken anywhere on Earth-poses a fundamental challenge due to the vast diversity in visual content across regions. While recent approaches adopt a two-stage pipeline of retrieving candidates and selecting the best match, they typically rely on simplistic similarity heuristics and point-wise supervision, failing to model spatial relationships among candidates. In this paper, we propose GeoRanker, a distance-aware ranking framework that leverages large vision-language models to jointly encode query-candidate interactions and predict geographic proximity. In addition, we introduce a multi-order distance loss that ranks both absolute and relative distances, enabling the model to reason over structured spatial relationships. To support this, we curate GeoRanking, the first dataset explicitly designed for geographic ranking tasks with multimodal candidate information. GeoRanker achieves state-of-the-art results on two well-established benchmarks (IM2GPS3K and YFCC4K), significantly outperforming current best methods.