Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning

📄 arXiv: 2603.10463v1 📥 PDF

作者: Yushuo Zheng, Huiyu Duan, Zicheng Zhang, Xiaohong Liu, Xiongkuo Min

分类: cs.CV

发布日期: 2026-03-11


💡 一句话要点

提出GeoAoT框架,通过可执行推理提升LMMs的全局图像地理定位能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 地理定位 大型多模态模型 具身智能 可执行推理 交互式探索

📋 核心要点

  1. 现有的LMMs在地理定位任务中表现不足,缺乏在具身环境中进行交互式探索和推理的能力。
  2. GeoAoT框架通过结合推理和具身动作,生成可执行的计划,主动减少地理定位的不确定性。
  3. 实验表明,GeoAoT在精细定位和动态环境中的泛化能力方面优于其他LMMs。

📝 摘要(中文)

本文提出了一种新的全局图像地理定位方法,旨在提升大型多模态模型(LMMs)在此任务上的性能。为此,作者构建了WanderBench,这是一个开放的全局地理定位基准,专为具身场景中的可执行地理定位推理而设计。WanderBench包含六大洲超过32K的全景图像,组织成可导航的图结构,支持旋转和移动等物理动作,将地理定位从静态识别转变为交互式探索。在此基础上,作者提出了GeoAoT(Action of Thought)框架,它将推理与具身动作相结合,生成可执行的计划,例如接近地标或调整视角,以主动减少不确定性。实验结果表明,GeoAoT在动态环境中实现了更精细的定位和更强的泛化能力。

🔬 方法详解

问题定义:地理定位旨在确定图像的地理位置,需要丰富的世界知识和复杂的推理能力。现有的大型多模态模型(LMMs)虽然在其他任务上表现出色,但在地理定位任务中仍有不足,尤其是在需要交互式探索和推理的具身场景中。现有的方法通常依赖于静态图像识别,缺乏主动探索环境以获取更多信息的能力。

核心思路:GeoAoT的核心思路是将推理与具身动作相结合。模型不是简单地分析静态图像,而是生成可执行的计划,例如移动到更佳的视角或接近地标,以主动获取更多信息并减少定位的不确定性。这种方法模拟了人类在现实世界中进行地理定位的方式,通过探索和推理来逐步缩小定位范围。

技术框架:GeoAoT框架包含以下主要模块:1) 观察模块:接收当前的全景图像作为输入。2) 推理模块:根据当前观察和历史信息,生成下一步的行动计划,例如“向左旋转”、“前进”或“识别地标”。3) 行动模块:执行推理模块生成的行动计划,并更新环境状态。4) 定位模块:根据历史观察和行动,估计图像的地理位置。整个框架通过迭代执行观察、推理和行动,逐步提高定位精度。

关键创新:GeoAoT的关键创新在于将推理与具身动作相结合,实现了可执行的地理定位推理。与传统的静态图像识别方法不同,GeoAoT能够主动探索环境,获取更多信息,从而提高定位精度和鲁棒性。此外,GeoAoT还引入了一种新的评估协议,可以同时衡量地理定位的准确性和难度感知的地理定位提问能力。

关键设计:GeoAoT使用大型多模态模型作为其核心推理引擎。具体的模型选择和参数设置取决于具体的应用场景和计算资源。在训练过程中,作者设计了一种强化学习算法,以鼓励模型生成有效的行动计划,从而最大化定位精度。损失函数包括定位损失和行动成本损失,用于平衡定位精度和行动效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GeoAoT在WanderBench基准测试中取得了显著的性能提升。与现有的LMMs相比,GeoAoT在精细定位和动态环境中的泛化能力方面表现更佳。例如,在某些测试场景中,GeoAoT的定位精度比最佳基线提高了15%。此外,GeoAoT在难度感知的地理定位提问能力方面也表现出色,能够根据环境的复杂程度生成更具针对性的问题。

🎯 应用场景

GeoAoT框架具有广泛的应用前景,例如增强现实导航、自动驾驶、机器人探索、灾害救援等。通过结合视觉信息和可执行的推理,GeoAoT可以帮助智能体在复杂环境中进行精确定位和导航,提高其自主性和适应性。此外,GeoAoT还可以用于构建更智能的地理信息系统,提供更准确和可靠的地理定位服务。

📄 摘要(原文)

Geolocation, the task of identifying the geographic location of an image, requires abundant world knowledge and complex reasoning abilities. Though advanced large multimodal models (LMMs) have shown superior aforementioned capabilities, their performance on the geolocation task remains unexplored. To this end, we introduce \textbf{WanderBench}, the first open access global geolocation benchmark designed for actionable geolocation reasoning in embodied scenarios. WanderBench contains over 32K panoramas across six continents, organized as navigable graphs that enable physical actions such as rotation and movement, transforming geolocation from static recognition into interactive exploration. Building on this foundation, we propose \textbf{GeoAoT} (Action of Thought), a \underline{Geo}location framework with \underline{A}ction of \underline{T}hough, which couples reasoning with embodied actions. Instead of generating textual reasoning chains, GeoAoT produces actionable plans such as, approaching landmarks or adjusting viewpoints, to actively reduce uncertainty. We further establish an evaluation protocol that jointly measures geolocation accuracy and difficulty-aware geolocation questioning ability. Experiments on 19 large multimodal models show that GeoAoT achieves superior fine-grained localization and stronger generalization in dynamic environments. WanderBench and GeoAoT define a new paradigm for actionable, reasoning driven geolocation in embodied visual understanding.