GROKE: Vision-Free Navigation Instruction Evaluation via Graph Reasoning on OpenStreetMap

📄 arXiv: 2601.07375v1 📥 PDF

作者: Farzad Shami, Subhrasankha Dey, Nico Van de Weghe, Henrikki Tenkanen

分类: cs.CL

发布日期: 2026-01-12

备注: Under Review for ACL 2026


💡 一句话要点

GROKE:基于OpenStreetMap图推理的免视觉导航指令评估框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 导航指令评估 视觉语言导航 OpenStreetMap 大型语言模型 图推理

📋 核心要点

  1. 现有VLN指令评估依赖视觉模拟器,存在许可限制、计算成本高和感知误差干扰等问题。
  2. GROKE利用OpenStreetMap数据,构建免视觉、免训练的分层LLM框架,评估导航指令的功能性。
  3. 实验表明,结构化JSON和文本格式的空间信息表示优于网格和视觉图,导航误差显著降低。

📝 摘要(中文)

本文提出GROKE,一个基于OpenStreetMap数据的免视觉、免训练、分层LLM框架,用于评估导航指令。现有视觉语言导航(VLN)研究中,导航指令的评估仍面临挑战。传统基于参考的指标(如BLEU和ROUGE)无法捕捉空间指令的功能效用,即指令是否能成功引导导航者到达目的地。现有VLN智能体虽然可以作为评估器,但它们依赖于高保真视觉模拟器,引入了许可限制和计算成本,且感知误差会混淆语言质量评估。通过系统的消融研究,我们证明了用于空间信息的结构化JSON和文本格式明显优于基于网格和视觉图的表示。我们的分层架构结合了子指令规划和拓扑图导航,在Map2Seq数据集上,导航误差比启发式和采样基线降低了68.5%。该智能体的执行成功率、轨迹保真度和决策模式可作为功能可导航性的代理指标,从而建立了一个可扩展且可解释的评估范例,无需视觉依赖。

🔬 方法详解

问题定义:现有视觉语言导航(VLN)指令评估方法依赖于视觉模拟器,这带来了几个问题:首先,高保真视觉模拟器通常需要许可,限制了研究的广泛开展;其次,视觉模拟器的计算成本很高,使得大规模评估变得困难;最后,视觉感知模块的误差会影响指令评估的准确性,使得难以区分是指令本身的问题还是感知模块的问题。因此,需要一种免视觉的、低成本的、高准确性的导航指令评估方法。

核心思路:GROKE的核心思路是利用OpenStreetMap(OSM)数据作为导航环境的表示,并使用大型语言模型(LLM)进行推理和导航。OSM提供了丰富的道路网络和地标信息,可以用于模拟导航环境。LLM则可以理解导航指令,并根据OSM数据进行路径规划和导航。通过这种方式,可以避免对视觉信息的依赖,从而降低计算成本和消除感知误差的影响。

技术框架:GROKE的整体架构是一个分层框架,包含以下几个主要模块:1) 指令解析模块:将导航指令分解为子指令序列。2) 环境表示模块:将OSM数据转换为结构化的JSON或文本格式,用于LLM的理解和推理。3) 路径规划模块:LLM根据子指令和环境表示,规划出导航路径。4) 导航执行模块:模拟导航器沿着规划的路径进行导航,并记录导航轨迹和结果。5) 评估模块:根据导航轨迹和结果,评估导航指令的质量。

关键创新:GROKE的关键创新在于:1) 免视觉导航指令评估:通过利用OSM数据和LLM,实现了免视觉的导航指令评估,避免了对视觉模拟器的依赖。2) 分层架构:通过将导航任务分解为子指令规划和拓扑图导航,提高了导航的准确性和效率。3) 结构化空间信息表示:通过使用结构化的JSON和文本格式表示空间信息,使得LLM能够更好地理解和推理。

关键设计:GROKE的关键设计包括:1) 子指令分解策略:采用启发式规则或LLM进行子指令分解,将复杂的导航指令分解为更简单的子指令。2) OSM数据表示格式:设计了结构化的JSON和文本格式,用于表示OSM数据中的道路网络和地标信息。3) LLM选择和微调:选择了合适的LLM,并可能对其进行微调,以提高其在导航任务中的性能。4) 导航成功率和轨迹保真度指标:定义了导航成功率和轨迹保真度等指标,用于评估导航指令的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GROKE在Map2Seq数据集上进行了实验,结果表明,其分层架构结合子指令规划和拓扑图导航,相比于启发式和采样基线,导航误差降低了68.5%。此外,实验还证明了结构化的JSON和文本格式的空间信息表示优于基于网格和视觉图的表示。这些结果表明GROKE能够有效地评估导航指令的质量,并具有良好的性能。

🎯 应用场景

GROKE具有广泛的应用前景,可用于自动驾驶、机器人导航、语音助手等领域。它可以用于评估和改进导航指令的质量,提高导航系统的可靠性和用户体验。此外,GROKE还可以用于生成更清晰、更有效的导航指令,帮助用户更好地理解和执行导航任务。该研究的免视觉特性使其在资源受限或视觉信息不可靠的环境中具有独特的优势。

📄 摘要(原文)

The evaluation of navigation instructions remains a persistent challenge in Vision-and-Language Navigation (VLN) research. Traditional reference-based metrics such as BLEU and ROUGE fail to capture the functional utility of spatial directives, specifically whether an instruction successfully guides a navigator to the intended destination. Although existing VLN agents could serve as evaluators, their reliance on high-fidelity visual simulators introduces licensing constraints and computational costs, and perception errors further confound linguistic quality assessment. This paper introduces GROKE(Graph-based Reasoning over OSM Knowledge for instruction Evaluation), a vision-free training-free hierarchical LLM-based framework for evaluating navigation instructions using OpenStreetMap data. Through systematic ablation studies, we demonstrate that structured JSON and textual formats for spatial information substantially outperform grid-based and visual graph representations. Our hierarchical architecture combines sub-instruction planning with topological graph navigation, reducing navigation error by 68.5% compared to heuristic and sampling baselines on the Map2Seq dataset. The agent's execution success, trajectory fidelity, and decision patterns serve as proxy metrics for functional navigability given OSM-visible landmarks and topology, establishing a scalable and interpretable evaluation paradigm without visual dependencies. Code and data are available at https://anonymous.4open.science/r/groke.