GeoNav: Empowering MLLMs with Explicit Geospatial Reasoning Abilities for Language-Goal Aerial Navigation

📄 arXiv: 2504.09587v3 📥 PDF

作者: Haotian Xu, Yue Hu, Chen Gao, Zhengqiu Zhu, Yong Zhao, Yong Li, Quanjun Yin

分类: cs.RO

发布日期: 2025-04-13 (更新: 2025-05-12)


💡 一句话要点

GeoNav:赋予MLLM显式地理空间推理能力,用于语言目标空中导航

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 空中导航 多模态学习 地理空间推理 大型语言模型 无人机 认知地图 场景图

📋 核心要点

  1. 现有语言目标空中导航方法在复杂城市环境中面临视野局限、语义歧义和缺乏空间推理等挑战。
  2. GeoNav通过构建全局认知地图和局部场景图,结合多模态链式思考提示,实现由粗到精的导航策略。
  3. 实验表明,GeoNav在CityNav基准测试中显著优于现有技术,成功率提升高达12.53%。

📝 摘要(中文)

语言目标空中导航是具身人工智能中的一项关键挑战,它要求无人机基于文本描述在复杂的环境(如城市街区)中定位目标。现有方法通常从室内导航改编而来,但由于视野有限、物体语义模糊以及缺乏结构化的空间推理,难以扩展。本文提出了GeoNav,一种具有地理空间感知能力的多模态智能体,以实现远距离导航。GeoNav分三个阶段运行:地标导航、目标搜索和精确定位,模仿人类由粗到精的空间策略。为了支持这种推理,它动态地构建两种不同类型的空间记忆。第一种是全局但示意性的认知地图,它将先验的文本地理知识和具身视觉线索融合为自上而下的、带注释的形式,用于快速导航到地标区域。第二种是局部但精细的场景图,表示街区、地标和物体之间的分层空间关系,用于明确的目标定位。在此结构化表示的基础上,GeoNav采用空间感知的多模态链式思考提示机制,使多模态大型语言模型能够在各个阶段进行高效且可解释的决策。在CityNav城市导航基准测试中,GeoNav的成功率比当前最先进的方法提高了12.53%,并显着提高了导航效率,即使在困难级别的任务中也是如此。消融研究突出了每个模块的重要性,展示了地理空间表示和由粗到精的推理如何增强无人机导航。

🔬 方法详解

问题定义:论文旨在解决无人机在复杂城市环境中,根据自然语言描述进行远距离目标定位的问题。现有方法,特别是从室内导航改编的方法,难以有效处理城市环境的特点,例如视野受限、物体语义模糊以及缺乏对地理空间信息的有效利用。这些问题导致导航效率低下,成功率较低。

核心思路:GeoNav的核心思路是模仿人类由粗到精的空间推理策略,将导航过程分解为地标导航、目标搜索和精确定位三个阶段。通过构建全局认知地图和局部场景图,并结合多模态链式思考提示,使大型语言模型能够有效地利用地理空间信息进行决策。这种分层结构和显式的空间推理能力是解决城市导航问题的关键。

技术框架:GeoNav的整体框架包含三个主要阶段:1) 地标导航:利用全局认知地图,将先验的文本地理知识和视觉线索融合,快速导航到地标区域。2) 目标搜索:在地标区域内,利用局部场景图,构建街区、地标和物体之间的分层空间关系。3) 精确定位:基于场景图和多模态信息,使用空间感知的多模态链式思考提示,精确定位目标。

关键创新:GeoNav的关键创新在于其显式的地理空间推理能力。它通过构建全局认知地图和局部场景图,将地理空间信息以结构化的方式呈现给大型语言模型,使其能够进行更有效的空间推理和决策。与现有方法相比,GeoNav不仅利用视觉信息,还充分利用了文本地理知识,并将其与视觉信息融合,从而提高了导航的准确性和效率。

关键设计:全局认知地图的设计采用了自上而下的、带注释的形式,以便快速导航到地标区域。局部场景图则采用了分层结构,以表示街区、地标和物体之间的空间关系。多模态链式思考提示机制允许大型语言模型在各个阶段进行可解释的决策。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GeoNav在CityNav城市导航基准测试中取得了显著的性能提升,成功率比当前最先进的方法提高了12.53%,尤其是在困难级别的任务中表现出色。消融研究表明,全局认知地图、局部场景图和多模态链式思考提示等模块都对整体性能有重要贡献,验证了GeoNav方法的有效性。

🎯 应用场景

GeoNav技术可应用于无人机物流、城市安防、灾害救援等领域。通过赋予无人机理解和执行自然语言指令的能力,可以实现更智能、更高效的空中作业。该研究的突破将推动具身智能在复杂城市环境中的应用,并为未来的智能城市建设提供技术支持。

📄 摘要(原文)

Language-goal aerial navigation is a critical challenge in embodied AI, requiring UAVs to localize targets in complex environments such as urban blocks based on textual specification. Existing methods, often adapted from indoor navigation, struggle to scale due to limited field of view, semantic ambiguity among objects, and lack of structured spatial reasoning. In this work, we propose GeoNav, a geospatially aware multimodal agent to enable long-range navigation. GeoNav operates in three phases-landmark navigation, target search, and precise localization-mimicking human coarse-to-fine spatial strategies. To support such reasoning, it dynamically builds two different types of spatial memory. The first is a global but schematic cognitive map, which fuses prior textual geographic knowledge and embodied visual cues into a top-down, annotated form for fast navigation to the landmark region. The second is a local but delicate scene graph representing hierarchical spatial relationships between blocks, landmarks, and objects, which is used for definite target localization. On top of this structured representation, GeoNav employs a spatially aware, multimodal chain-of-thought prompting mechanism to enable multimodal large language models with efficient and interpretable decision-making across stages. On the CityNav urban navigation benchmark, GeoNav surpasses the current state-of-the-art by up to 12.53% in success rate and significantly improves navigation efficiency, even in hard-level tasks. Ablation studies highlight the importance of each module, showcasing how geospatial representations and coarse-to-fine reasoning enhance UAV navigation.