G-DRAGON: Geospatial Reasoning and Dynamic Planning for Retrieval-Augmented Outdoor Navigation

📄 arXiv: 2605.25646v1 📥 PDF

作者: Dongzhihan Wang, Yi Du, Jianan Sun, Yuan Xue, Yingchen Zhang, Bing Xiao, Chen Wang, Liang Xu

分类: cs.RO

发布日期: 2026-05-25

备注: Accepted by IEEE Robotics and Automation Letters (RA-L)


💡 一句话要点

G-DRAGON:用于检索增强户外导航的地理空间推理与动态规划

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 户外导航 地理空间推理 动态规划 检索增强 开放世界 SLAM 无人地面车辆

📋 核心要点

  1. 现有视觉语言导航(VLN)方法在短距离任务中表现良好,但缺乏长距离任务所需的地理空间基础。
  2. G-DRAGON框架利用轻量级LLM进行生成式检索,将自然语言命令映射到本地OSM实体,实现精确的全局路径规划。
  3. 该框架在仿真和真实世界环境中进行了验证,在人员搜索任务中表现出色,证明了其在户外导航中的有效性。

📝 摘要(中文)

本文提出G-DRAGON,一个用于户外开放世界导航的检索增强框架,旨在解决大规模户外环境中自主地面机器人的长距离导航和精细“最后一公里”探索问题。该框架通过基于轻量级LLM的生成式检索,将自然语言命令映射到版本化的本地OSM实体,从而为全局路径规划提供精确坐标。高层规划模块将全局拓扑路径与SLAM系统连接,并将地理空间航点投影到机器人的可导航框架中。在“最后一公里”阶段,框架过渡到基于前沿的探索和开放集语义体素映射,以定位开放词汇目标。仿真实验结果表明,该框架优于最先进的基线方法。此外,该系统在未见过的真实城市环境中进行了无人地面车辆(UGV)验证,成功完成了轨迹长达500米的人员搜索任务。

🔬 方法详解

问题定义:现有基于视觉语言的导航方法难以处理大规模户外环境下的长距离导航任务,缺乏足够的地理空间信息支撑。同时,一些基于OpenStreetMap(OSM)的方法依赖于云端大型语言模型(LLM),容易产生事实幻觉,并且无法根据人类指令进行“最后一公里”的探索。因此,需要一种能够进行精确地理空间推理和动态规划的导航框架,以实现鲁棒的户外导航。

核心思路:G-DRAGON的核心思路是利用检索增强的方法,将自然语言指令与本地OSM数据进行关联,从而实现精确的地理空间定位和路径规划。通过轻量级的LLM进行生成式检索,避免了对云端LLM的过度依赖,降低了产生幻觉的风险。同时,结合高层规划模块和SLAM系统,实现了全局路径规划和局部环境探索的无缝衔接。

技术框架:G-DRAGON框架主要包含以下几个模块:1) 基于轻量级LLM的生成式检索模块,用于将自然语言命令映射到本地OSM实体;2) 高层规划模块,用于将全局拓扑路径与SLAM系统连接,并将地理空间航点投影到机器人的可导航框架中;3) 基于前沿的探索模块,用于在“最后一公里”阶段进行环境探索;4) 开放集语义体素映射模块,用于定位开放词汇目标。整体流程是从自然语言指令开始,通过检索模块获取地理空间信息,然后进行全局路径规划,最后通过局部探索模块完成“最后一公里”的导航。

关键创新:G-DRAGON的关键创新在于其检索增强的框架设计,通过将自然语言指令与本地OSM数据进行关联,实现了精确的地理空间定位和路径规划。与现有方法相比,G-DRAGON避免了对云端LLM的过度依赖,降低了产生幻觉的风险,并且能够进行“最后一公里”的探索。此外,G-DRAGON还采用了开放集语义体素映射技术,能够定位开放词汇目标,提高了导航的灵活性和适应性。

关键设计:G-DRAGON框架中的关键设计包括:1) 轻量级LLM的选择和训练,需要根据具体的应用场景进行优化;2) 生成式检索模块的设计,需要考虑如何有效地将自然语言指令映射到本地OSM实体;3) 高层规划模块的设计,需要考虑如何将全局拓扑路径与SLAM系统进行有效连接;4) 开放集语义体素映射模块的设计,需要考虑如何有效地定位开放词汇目标。具体的参数设置、损失函数、网络结构等技术细节在论文中可能有所描述,但在此处无法详细展开。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,G-DRAGON框架在仿真环境中优于最先进的基线方法。此外,该系统在未见过的真实城市环境中进行了无人地面车辆(UGV)验证,成功完成了轨迹长达500米的人员搜索任务。这些实验结果证明了G-DRAGON框架在户外导航中的有效性和鲁棒性。

🎯 应用场景

G-DRAGON框架具有广泛的应用前景,可用于自主导航机器人、无人地面车辆(UGV)、智能巡逻机器人等领域。该框架能够实现精确的户外导航和目标搜索,可应用于物流配送、安防巡逻、环境监测等场景。未来,该研究可以进一步扩展到更复杂的环境和任务中,例如灾难救援、城市管理等。

📄 摘要(原文)

Autonomous ground robots operating in large-scale outdoor environments require both robust long-range navigation and fine-grained ''last-mile'' exploration. Current advances in visual-language navigation (VLN) work well at short-range tasks, lacking geospatial grounding for long-distance missions. Some OpenStreetMap (OSM)-based methods relying on cloud-based Large Language Models (LLMs) are prone to factual hallucination and cannot conduct ''last-mile'' exploration based on human instruction. To address these challenges, we present G-DRAGON, a retrieval-augmented framework for outdoor, open-world navigation. This framework maps natural-language commands to versioned, local OSM entities via generative retrieval based on lightweight LLM, yielding accurate coordinates for global route planning. A high-level planning module bridges global topological routes with the SLAM system, projecting geospatial waypoints into the robot's navigable frame. For the ''last mile," the framework transitions to frontier-based exploration and open-set semantic voxel mapping to localize open-vocabulary targets. Experimental results in simulation demonstrate our framework outperforms state-of-the-art baselines. Furthermore, we validate the system in unseen real-world urban environments on an Unmanned Ground Vehicle (UGV), successfully completing person-search missions with trajectories of up to 500m.