TurnBack: A Geospatial Route Cognition Benchmark for Large Language Models through Reverse Route

📄 arXiv: 2509.18173v1 📥 PDF

作者: Hongyi Luo, Qing Cheng, Daniel Matos, Hari Krishna Gadi, Yanfeng Zhang, Lu Liu, Yongliang Wang, Niclas Zeller, Daniel Cremers, Liqiu Meng

分类: cs.LG, cs.CL

发布日期: 2025-09-17

备注: Accepted to EMNLP 2025 (Main). This is the camera-ready/author version

🔗 代码/项目: GITHUB


💡 一句话要点

提出TurnBack基准,评估大语言模型在逆向地理空间路径认知上的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 地理空间认知 路径规划 逆向路径 基准测试

📋 核心要点

  1. 现有研究缺乏可量化的指标和大规模数据集,难以充分评估大语言模型在地理空间认知方面的能力。
  2. 论文提出TurnBack基准,包含大规模数据集和评估框架,专注于评估LLMs逆向地理空间路径认知能力。
  3. 实验结果表明,LLMs在逆转路径任务中表现出明显的局限性,例如无法返回起点和鲁棒性较差。

📝 摘要(中文)

本文提出了一项大规模基准测试,旨在全面评估大语言模型(LLMs)的地理空间路径认知能力。尽管人类可以通过自然语言理解地理空间信息,但LLMs在这方面的能力仍有待探索。现有研究受限于不可量化的指标、有限的评估数据集和不明确的研究层次。为此,我们构建了一个包含来自全球12个大都市的36000条路径的大规模评估数据集。此外,我们引入了PathBuilder,这是一种将自然语言指令转换为导航路线,反之亦然的新工具,从而弥合了地理空间信息和自然语言之间的差距。最后,我们提出了一个新的评估框架和指标,以严格评估11个最先进的LLMs在路径逆转任务上的表现。基准测试表明,LLMs在逆转路径方面存在局限性:大多数逆转路径既没有返回起点,也与最佳路径不相似。此外,LLMs在路线生成方面面临鲁棒性低以及对其不正确答案的高度自信等挑战。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLMs)在地理空间路径认知方面的评估问题,特别是逆向路径认知能力。现有方法缺乏标准化的评估基准和可量化的指标,难以准确衡量LLMs在此方面的能力。此外,现有数据集规模有限,无法充分覆盖各种地理环境和路径类型。

核心思路:论文的核心思路是通过构建大规模的逆向路径数据集和评估框架,来系统地评估LLMs的地理空间认知能力。逆向路径认知是指LLMs能够根据给定的终点和路径描述,推断出起始点和完整路径的能力。这种能力对于理解和生成地理空间信息至关重要。

技术框架:整体框架包含三个主要组成部分:1) 大规模数据集构建:收集来自全球12个大都市的36000条路径数据,构成TurnBack数据集。2) PathBuilder工具:开发PathBuilder工具,用于在自然语言指令和导航路线之间进行转换,实现数据增强和格式统一。3) 评估框架:设计新的评估指标,用于量化LLMs在逆向路径任务中的表现,包括路径相似度、起点准确率等。

关键创新:论文的关键创新在于提出了TurnBack基准,这是首个专注于评估LLMs逆向地理空间路径认知能力的大规模数据集和评估框架。PathBuilder工具的引入,实现了自然语言和地理空间信息之间的有效桥梁,为数据生成和模型训练提供了便利。

关键设计:PathBuilder工具采用基于规则和机器学习相结合的方法,将自然语言指令解析为地理坐标序列,并利用地图API进行路径规划。评估指标包括:1) 路径相似度:衡量生成路径与真实路径之间的相似程度。2) 起点准确率:衡量LLMs预测的起点与真实起点之间的距离。3) 鲁棒性:通过引入噪声数据,评估LLMs在不同环境下的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有SOTA LLMs在TurnBack基准上表现不佳,大多数逆转路径无法返回起点,且与最优路径差异较大。例如,在起点准确率方面,最佳模型的平均误差距离仍超过1公里。此外,LLMs在面对噪声数据时鲁棒性较低,且对其错误答案表现出较高的置信度。这些结果揭示了LLMs在地理空间认知方面存在的局限性,为未来的研究方向提供了指导。

🎯 应用场景

该研究成果可应用于智能导航、自动驾驶、机器人路径规划等领域。通过提升LLMs的地理空间认知能力,可以实现更智能、更可靠的导航系统,提高自动驾驶车辆的环境感知能力,并为机器人提供更准确的路径规划方案。此外,该研究还可以促进人机交互领域的发展,实现更自然的基于地理位置的对话系统。

📄 摘要(原文)

Humans can interpret geospatial information through natural language, while the geospatial cognition capabilities of Large Language Models (LLMs) remain underexplored. Prior research in this domain has been constrained by non-quantifiable metrics, limited evaluation datasets and unclear research hierarchies. Therefore, we propose a large-scale benchmark and conduct a comprehensive evaluation of the geospatial route cognition of LLMs. We create a large-scale evaluation dataset comprised of 36000 routes from 12 metropolises worldwide. Then, we introduce PathBuilder, a novel tool for converting natural language instructions into navigation routes, and vice versa, bridging the gap between geospatial information and natural language. Finally, we propose a new evaluation framework and metrics to rigorously assess 11 state-of-the-art (SOTA) LLMs on the task of route reversal. The benchmark reveals that LLMs exhibit limitation to reverse routes: most reverse routes neither return to the starting point nor are similar to the optimal route. Additionally, LLMs face challenges such as low robustness in route generation and high confidence for their incorrect answers. Code\ \&\ Data available here: \href{https://github.com/bghjmn32/EMNLP2025_Turnback}{TurnBack.}