When Vision Misleads, Let Location Speak: A Worldwide Image Geo-Localization Method via Location Attention Mechanism and Large Multimodal Models
作者: Junchao Cui, Wenqi Shi, Xuanzi Ma, Nan Wu, Shaoyong Du, Xiangyang Luo
分类: cs.CV
发布日期: 2026-06-08
备注: Submitted to IEEE Transactions on Multimedia in March 2026
💡 一句话要点
提出TransGeoCLIP以解决全球图像地理定位问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像地理定位 位置注意力机制 多模态模型 Transformer 检索增强推理
📋 核心要点
- 现有图像地理定位方法常因视觉相似性导致误定位,影响实际应用的可靠性。
- 本文提出TransGeoCLIP,通过位置注意力机制和大型多模态模型有效区分视觉相似图像的地理特征。
- 在IM2GPS、IM2GPS3k、YFCC4k和YFCC26k等数据集上,TransGeoCLIP在街道级定位准确性上显著提升,超越现有方法。
📝 摘要(中文)
全球图像地理定位旨在确定图像的拍摄位置,现有方法常因将图像与不同地理区域的视觉相似场景匹配而导致误定位,限制了实际应用的可靠性。为此,本文提出了TransGeoCLIP,一个结合位置注意力机制和大型多模态模型的检索框架。该框架通过Transformer编码器有效区分视觉相似图像的地理特征,包含两个阶段:1) 检索数据库构建,利用位置注意力机制编码GPS坐标,增强位置语义;2) 检索增强推理,利用大型多模态模型从检索结果中推断最终图像位置。实验结果表明,TransGeoCLIP在多个数据集上显著提升了定位性能,特别是在街道级定位准确性方面,超越了现有最先进方法。
🔬 方法详解
问题定义:本文旨在解决全球图像地理定位中的误定位问题,现有方法在处理视觉相似场景时常常无法准确识别其地理位置,导致定位不准确。
核心思路:TransGeoCLIP通过引入位置注意力机制,结合大型多模态模型,增强了图像与其地理位置之间的关联性,从而提高了对视觉相似图像的定位准确性。
技术框架:该框架分为两个主要阶段:第一阶段是检索数据库构建,利用Transformer和位置注意力机制对GPS坐标进行编码,增强位置语义;第二阶段是检索增强推理,利用大型多模态模型从检索结果中推断最终的图像位置。
关键创新:TransGeoCLIP的核心创新在于结合了位置注意力机制与大型多模态模型,使得在视觉相似图像中能够有效区分地理特征,这一设计与传统方法的单一视觉匹配方式有本质区别。
关键设计:在模型设计中,使用了Transformer编码器来处理GPS坐标,并通过CLIP实现图像、文本和GPS的联合嵌入,确保了位置语义的增强和准确性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,TransGeoCLIP在多个基准数据集上显著提升了定位性能,特别是在街道级定位准确性方面,分别超越现有最先进方法1.5%、1.07%、7.18%和9.75%。
🎯 应用场景
该研究在全球图像地理定位领域具有广泛的应用潜力,尤其适用于地图服务、无人驾驶、增强现实等场景。通过提高定位准确性,能够为用户提供更可靠的位置信息,推动相关技术的发展和应用。
📄 摘要(原文)
Worldwide image geo-localization aims to determine the capture location of an image on a global scale. Existing methods often mislocalize images by matching them to visually similar scenes from different geographic regions, which limits reliability in practical applications. To address this issue, we propose TransGeoCLIP, a novel retrieval-based framework that integrates a location attention mechanism and large multimodal models (LMMs). Using the Transformer encoder with location attention to encode GPS coordinates, TransGeoCLIP can effectively distinguish geographic features among visually similar images. The framework consists of two stages: 1) Retrieval database construction, which employs Transformers equipped with location attention mechanisms to encode labeled GPS coordinates and enhance location semantics, subsequently enables joint image-text-GPS embedding through CLIP; 2) Retrieval-augmented inference, which leverages LMMs to infer the final image location prediction from retrieved database results. Extensive experimental results on diverse datasets, including IM2GPS, IM2GPS3k, YFCC4k, and YFCC26k, demonstrate that TransGeoCLIP significantly enhances localization performance for visually similar images. Particularly, street-level localization accuracy (within 1 km error) is substantially improved, surpassing state-of-the-art methods by 1.5%, 1.07%, 7.18%, and 9.75% on these benchmarks, respectively.