GeoSearch: Augmenting Worldwide Geolocalization with Web-Scale Reverse Image Search and Image Matching
作者: Tung-Duong Le-Duc, Hoang-Quoc Nguyen-Son, Minh-Son Dao
分类: cs.IR, cs.CV
发布日期: 2026-04-28
备注: Accepted to SIGIR 2026 Main Conference
💡 一句话要点
GeoSearch:利用Web级反向图像搜索增强全球地理定位
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 地理定位 反向图像搜索 检索增强生成 大型多模态模型 开放世界 图像匹配 信息提取
📋 核心要点
- 现有地理定位方法依赖固定数据库,难以处理未见过的场景,限制了其泛化能力。
- GeoSearch通过Web级反向图像搜索扩展RAG流程,利用网络信息增强地理定位的准确性。
- 实验表明,GeoSearch在Im2GPS3k和YFCC4k数据集上优于现有方法,并考虑了数据泄露问题。
📝 摘要(中文)
全球图像地理定位旨在预测地球上任何图像的GPS坐标,但由于全球视觉多样性而极具挑战性。最近基于检索增强生成(RAG)和大型多模态模型(LMM)的生成方法利用从固定数据库检索的候选对象进行推理,但通常难以处理参考集中不存在的场景。本文提出GeoSearch,一个将Web级反向图像搜索集成到RAG流程中的开放世界地理定位框架。GeoSearch使用从数据库检索的坐标和从网页提取的文本证据来增强LMM提示。为了减轻来自不相关内容的噪声,我们引入了一个由图像匹配和基于置信度的门控组成的双层过滤机制。在标准基准Im2GPS3k和YFCC4k上的实验证明了GeoSearch在泄漏感知评估下的优越性。我们的代码和数据已公开,以支持可重复性。
🔬 方法详解
问题定义:论文旨在解决全球图像地理定位问题,即预测给定图像的GPS坐标。现有方法,特别是基于检索增强生成(RAG)和大型多模态模型(LMM)的方法,依赖于预定义的固定数据库进行检索和推理。然而,这些方法在处理数据库中不存在的场景时表现不佳,因为它们无法获取到相关的上下文信息,导致定位精度下降。现有方法的痛点在于其封闭世界的假设,无法有效利用互联网上丰富的视觉和文本信息。
核心思路:GeoSearch的核心思路是将开放世界的Web级反向图像搜索集成到RAG流程中,从而扩展地理定位系统的知识来源。通过反向图像搜索,系统可以检索到与输入图像相关的网页,并从中提取地理坐标和文本描述等信息。这些信息被用来增强LMM的提示,从而提高地理定位的准确性和鲁棒性。这种方法打破了传统方法对固定数据库的依赖,使其能够处理更广泛的场景。
技术框架:GeoSearch的整体框架包含以下几个主要模块:1) 反向图像搜索:使用输入图像在Web上进行反向图像搜索,检索相关的网页。2) 信息提取:从检索到的网页中提取地理坐标和文本描述等信息。3) 双层过滤:首先使用图像匹配过滤掉不相关的图像,然后使用基于置信度的门控机制过滤掉不相关的文本信息。4) 提示增强:将提取到的地理坐标和文本描述添加到LMM的提示中。5) 地理定位:使用LMM预测输入图像的GPS坐标。
关键创新:GeoSearch最重要的技术创新点在于将Web级反向图像搜索集成到地理定位流程中,从而实现了开放世界的地理定位。与现有方法相比,GeoSearch不再局限于预定义的固定数据库,而是可以利用互联网上丰富的视觉和文本信息。此外,GeoSearch还提出了一个双层过滤机制,用于减轻来自不相关内容的噪声,从而提高地理定位的准确性。
关键设计:GeoSearch的关键设计包括:1) 使用预训练的图像匹配模型来过滤掉不相关的图像。2) 使用基于置信度的门控机制来过滤掉不相关的文本信息。置信度可以基于文本与图像的相关性、文本的地理相关性等因素进行计算。3) 使用LMM进行地理定位时,需要仔细设计提示,以充分利用提取到的地理坐标和文本描述。具体的参数设置和网络结构取决于所使用的LMM。
🖼️ 关键图片
📊 实验亮点
GeoSearch在Im2GPS3k和YFCC4k数据集上进行了评估,结果表明其优于现有的地理定位方法。在泄漏感知评估下,GeoSearch在Im2GPS3k数据集上取得了显著的性能提升,证明了其在开放世界环境下的有效性。具体的性能数据需要在论文中查找,但摘要中明确指出GeoSearch的优越性。
🎯 应用场景
GeoSearch具有广泛的应用前景,包括但不限于:增强现实、自动驾驶、城市规划、灾害救援、旅游推荐等。该技术可以帮助用户快速准确地确定图像的地理位置,从而为各种应用提供支持。例如,在增强现实中,GeoSearch可以用于将虚拟对象与真实场景进行对齐。在自动驾驶中,GeoSearch可以用于提高车辆的定位精度。在灾害救援中,GeoSearch可以用于快速确定受灾区域的位置。
📄 摘要(原文)
Worldwide image geolocalization, which aims to predict the GPS coordinates of any image on Earth, remains challenging due to global visual diversity. Recent generative approaches based on Retrieval-Augmented Generation (RAG) and Large Multimodal Models (LMMs) leverage candidates retrieved from fixed databases for reasoning, but often struggle with scenes that are absent from the reference set. In this work, we propose GeoSearch, an open-world geolocation framework that integrates web-scale reverse image search into the RAG pipeline. GeoSearch augments LMM prompts with database-retrieved coordinates and textual evidence extracted from web pages. To mitigate noise from irrelevant content, we introduce a two-layer filtering mechanism consisting of image matching, followed by confidence-based gating. Experiments on standard benchmarks Im2GPS3k and YFCC4k demonstrate the superiority of GeoSearch under leakage-aware evaluation. Our code and data are publicly available to support reproducibility.