REVERSE: Reinforcing Evidence Verification and Search for Agentic Image geo-localization

📄 arXiv: 2605.26861v1 📥 PDF

作者: Yong Li, Furong Jia, Dacheng Yin, Kang Rong, Fengyun Rao, Jing Lyu, Fan Zhang

分类: cs.CV

发布日期: 2026-05-26

🔗 代码/项目: GITHUB


💡 一句话要点

提出REVERSE框架,通过强化证据验证与搜索实现Agentic图像地理定位

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像地理定位 强化学习 证据搜索 证据验证 Agentic推理 多模态学习 视觉定位

📋 核心要点

  1. 现有图像地理定位方法缺乏对外部证据的有效利用和中间决策的监督。
  2. REVERSE框架通过强化证据搜索和验证的交互,实现多轮Agentic推理,模拟人类专家解决问题的过程。
  3. REVERSE在Im2GPS3k和YFCC4k数据集上取得了显著的性能提升,证明了其有效性。

📝 摘要(中文)

图像地理定位旨在确定照片的拍摄地点,这项任务通常需要识别可见地标之外的信息。人类专家通常通过迭代工作流程解决此问题:检查信息丰富的区域,形成位置假设,寻找外部证据,并随着新线索的出现修改判断。现有方法仅部分捕获此过程:直接预测方法完全绕过证据获取,而检索增强方法引入外部证据,但通常对搜索位置、查询方式以及过滤噪声结果的中间决策提供有限的监督。我们提出了REVERSE,一个强化证据搜索和验证之间相互作用的框架,以实现多轮Agentic推理。REVERSE学习三个中间决策:在哪里看,查询什么,以及信任什么证据。为了支持这一点,我们构建了具有注释区域选择、搜索观察和地理信息证据标签的工具基础轨迹,并引入了视觉基础、查询效用和证据辨别的过程奖励。离线搜索缓存使检索观察在强化学习期间稳定且可重用,从而能够对噪声搜索结果进行密集监督。使用4B模型,REVERSE在Im2GPS3k和YFCC4k上优于强大的检索增强基线,并与更大的模型相媲美。

🔬 方法详解

问题定义:图像地理定位旨在根据给定的图像确定其拍摄地点。现有方法要么直接预测,忽略了外部证据;要么虽然引入了检索增强,但对中间决策(如搜索位置、查询方式和证据筛选)的监督不足,导致性能受限。这些方法无法有效模拟人类专家迭代搜索、验证证据的过程。

核心思路:REVERSE的核心思路是模仿人类专家解决图像地理定位问题的方式,通过多轮迭代的证据搜索和验证来逐步缩小定位范围。它将整个过程建模为一个Agent,通过强化学习来优化Agent的决策过程,使其能够有效地选择搜索区域、生成查询以及判断证据的可靠性。

技术框架:REVERSE框架包含三个主要模块:视觉 grounding 模块,用于选择图像中的信息区域;查询生成模块,用于根据选择的区域生成搜索查询;证据验证模块,用于判断检索到的外部证据的可靠性。整个流程通过强化学习进行训练,目标是最大化定位的准确性。为了提高训练效率,使用了离线搜索缓存来存储检索结果,避免重复搜索。

关键创新:REVERSE的关键创新在于它将图像地理定位问题建模为一个多轮决策过程,并通过强化学习来优化Agent的决策策略。与现有方法相比,REVERSE能够更有效地利用外部证据,并对中间决策进行更精细的控制。此外,引入的过程奖励(视觉基础、查询效用和证据辨别)能够更好地指导Agent的学习。

关键设计:REVERSE使用了Transformer架构来处理图像和文本信息。强化学习算法使用了PPO(Proximal Policy Optimization)。损失函数包括定位损失、视觉 grounding 损失、查询效用损失和证据辨别损失。离线搜索缓存的大小和更新频率是重要的超参数。具体模型大小为4B参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

REVERSE在Im2GPS3k和YFCC4k数据集上取得了显著的性能提升。例如,在Im2GPS3k数据集上,REVERSE优于现有的检索增强基线,并且能够与参数量更大的模型相媲美。这些结果表明,REVERSE框架能够有效地利用外部证据,并提高图像地理定位的准确性。

🎯 应用场景

REVERSE框架可应用于自动驾驶、机器人导航、地理信息系统、旅游推荐等领域。通过准确地确定图像的拍摄地点,可以为这些应用提供重要的地理信息支持,例如帮助自动驾驶车辆进行精确定位,为机器人提供环境感知能力,为用户推荐附近的旅游景点等。该研究有助于提升地理定位技术的智能化水平。

📄 摘要(原文)

Image geo-localization aims to determine where a photograph was taken, a task that often requires more than recognizing visible landmarks. Human experts typically solve it through an iterative workflow: they inspect informative regions, form location hypotheses, seek external evidence, and revise their judgments as new clues appear. Existing methods only partially capture this process: direct prediction methods bypass evidence acquisition altogether, while retrieval-augmented methods introduce external evidence but usually provide limited supervision on the intermediate decisions of where to search, how to query, and how to filter noisy results. We present REVERSE, a framework that reinforces the interplay between evidence search and verification to enable multi-turn agentic reasoning. REVERSE teaches three intermediate decisions: where to look, what to query, and what evidence to trust. To support this, we construct tool-grounded trajectories with annotated region selections, search observations, and geo-informative evidence labels, and introduce process rewards for visual grounding, query utility, and evidence discrimination. An offline search cache makes retrieval observations stable and reusable during reinforcement learning, enabling dense supervision over noisy search results. With a 4B model, REVERSE outperforms strong retrieval-augmented baselines and rivals substantially larger models on Im2GPS3k and YFCC4k. Code is available at https://github.com/yonglleee/REVERSE.