GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization

📄 arXiv: 2505.13731v3 📥 PDF

作者: Pengyue Jia, Seongheon Park, Song Gao, Xiangyu Zhao, Sharon Li

分类: cs.CV

发布日期: 2025-05-19 (更新: 2025-10-14)

备注: NeurIPS 2025


💡 一句话要点

提出GeoRanker以解决全球图像地理定位问题

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像地理定位 距离感知 多模态学习 视觉-语言模型 空间关系建模

📋 核心要点

  1. 现有方法通常依赖简单的相似性启发式和点对点监督,未能有效建模候选之间的空间关系,导致性能不足。
  2. 本文提出的GeoRanker框架通过大型视觉-语言模型联合编码查询与候选的交互,增强了地理接近度的预测能力。
  3. GeoRanker在IM2GPS3K和YFCC4K两个基准上取得了最先进的结果,显著提升了地理定位的准确性。

📝 摘要(中文)

全球图像地理定位是从任何地方拍摄的图像中预测GPS坐标的任务,由于各地区视觉内容的多样性,这一任务面临着根本性挑战。尽管近期的方法采用了候选检索和最佳匹配选择的两阶段流程,但通常依赖于简单的相似性启发式和点对点监督,未能有效建模候选之间的空间关系。本文提出了GeoRanker,一个距离感知的排名框架,利用大型视觉-语言模型共同编码查询-候选交互并预测地理接近度。此外,我们引入了一种多阶距离损失,能够对绝对和相对距离进行排名,使模型能够推理结构化的空间关系。为此,我们策划了GeoRanking,这是第一个专门为地理排名任务设计的多模态候选信息数据集。GeoRanker在两个成熟基准(IM2GPS3K和YFCC4K)上取得了最先进的结果,显著超越当前最佳方法。

🔬 方法详解

问题定义:本文旨在解决全球图像地理定位中的距离感知排名问题。现有方法在空间关系建模方面存在不足,导致候选图像的选择不够准确。

核心思路:GeoRanker通过引入大型视觉-语言模型,联合编码查询与候选之间的交互,利用多阶距离损失来增强模型对绝对和相对距离的理解,从而更好地推理空间关系。

技术框架:GeoRanker的整体架构包括查询编码、候选编码和距离预测模块。首先,模型对输入图像和候选图像进行特征提取,然后通过距离感知机制进行排名。

关键创新:最重要的技术创新在于引入了多阶距离损失,该损失函数能够同时考虑绝对和相对距离,从而有效提升了模型对空间关系的推理能力。

关键设计:模型设计中,采用了大型视觉-语言模型作为基础,损失函数的设计上引入了多阶距离损失,确保模型能够在复杂的地理环境中进行有效的排名。具体参数设置和网络结构细节在实验部分进行了详细描述。

📊 实验亮点

GeoRanker在IM2GPS3K和YFCC4K基准测试中取得了最先进的结果,较现有最佳方法的性能提升幅度达到显著水平,具体提升数据在实验部分进行了详细展示,证明了其在地理定位任务中的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能城市、无人驾驶、增强现实等,能够为图像内容提供准确的地理位置信息,提升用户体验和服务质量。未来,GeoRanker有望在更广泛的地理信息系统中得到应用,推动相关技术的发展。

📄 摘要(原文)

Worldwide image geolocalization-the task of predicting GPS coordinates from images taken anywhere on Earth-poses a fundamental challenge due to the vast diversity in visual content across regions. While recent approaches adopt a two-stage pipeline of retrieving candidates and selecting the best match, they typically rely on simplistic similarity heuristics and point-wise supervision, failing to model spatial relationships among candidates. In this paper, we propose GeoRanker, a distance-aware ranking framework that leverages large vision-language models to jointly encode query-candidate interactions and predict geographic proximity. In addition, we introduce a multi-order distance loss that ranks both absolute and relative distances, enabling the model to reason over structured spatial relationships. To support this, we curate GeoRanking, the first dataset explicitly designed for geographic ranking tasks with multimodal candidate information. GeoRanker achieves state-of-the-art results on two well-established benchmarks (IM2GPS3K and YFCC4K), significantly outperforming current best methods.