MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

📄 arXiv: 2602.22638v1 📥 PDF

作者: Zhiheng Song, Jingshuai Zhang, Chuan Qin, Chao Wang, Chao Chen, Longfei Xu, Kaikui Liu, Xiangxiang Chu, Hengshu Zhu

分类: cs.AI

发布日期: 2026-02-26

🔗 代码/项目: GITHUB


💡 一句话要点

提出 MobilityBench,用于评估真实世界出行场景下的路线规划Agent

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 路线规划 大型语言模型 真实世界场景 基准测试 出行应用

📋 核心要点

  1. 现有路线规划Agent难以在真实世界场景中进行系统评估,面临需求多样、服务不确定和复现性差等挑战。
  2. MobilityBench 旨在通过大规模真实用户数据、确定性API重放沙箱和多维度评估协议,解决上述评估难题。
  3. 实验表明,现有LLM在基本任务上表现良好,但在个性化偏好约束的路线规划上仍有显著提升空间。

📝 摘要(中文)

本文介绍了一个名为 MobilityBench 的可扩展基准,用于评估基于大型语言模型(LLM)的路线规划Agent在真实世界出行场景中的表现。MobilityBench 构建自高德地图收集的大规模匿名真实用户查询,涵盖全球多个城市的广泛路线规划意图。为了实现可复现的端到端评估,我们设计了一个确定性的 API 重放沙箱,消除了来自实时服务的环境差异。此外,我们提出了一个以结果有效性为中心的多维度评估协议,并辅以对指令理解、规划、工具使用和效率的评估。我们使用 MobilityBench 评估了多个基于 LLM 的路线规划Agent在各种真实世界出行场景中的表现,并对它们的行为和性能进行了深入分析。我们的研究结果表明,当前的模型在基本信息检索和路线规划任务上表现良好,但在受偏好约束的路线规划方面表现不佳,这表明在个性化出行应用方面仍有很大的改进空间。我们公开发布了基准数据、评估工具包和文档。

🔬 方法详解

问题定义:现有基于LLM的路线规划Agent缺乏在真实世界场景下的系统性评估。主要痛点在于:1) 真实用户需求的多样性;2) 地图服务API的非确定性,导致评估结果难以复现;3) 缺乏统一的评估标准和数据集。这些问题阻碍了LLM在路线规划领域的进一步发展和应用。

核心思路:MobilityBench的核心思路是构建一个可控、可复现、且具有代表性的真实世界路线规划评估环境。通过收集大规模真实用户查询数据,并设计确定性的API重放沙箱,消除环境因素的干扰,从而实现对LLM路线规划Agent的客观评估。此外,设计多维度评估指标,全面衡量Agent的性能。

技术框架:MobilityBench主要包含以下几个模块:1) 数据集构建模块:从高德地图收集大规模匿名真实用户查询数据,涵盖多个城市和各种路线规划意图。2) API重放沙箱:设计确定性的API重放机制,模拟真实地图服务API的调用,并保证每次调用结果的一致性。3) 评估模块:定义多维度评估指标,包括结果有效性、指令理解、规划能力、工具使用和效率等。4) Agent评估模块:使用MobilityBench评估各种基于LLM的路线规划Agent。

关键创新:MobilityBench的关键创新在于:1) 真实世界数据驱动:使用大规模真实用户查询数据,更贴近实际应用场景。2) 确定性API重放沙箱:解决了地图服务API非确定性带来的评估难题,保证了评估结果的可复现性。3) 多维度评估协议:从多个角度评估Agent的性能,更全面地反映了Agent的优缺点。

关键设计:API重放沙箱通过记录API请求和响应,并在评估时重放这些记录,从而保证API调用结果的一致性。评估指标包括:结果有效性(路线是否可达、是否符合用户意图)、指令理解(Agent是否正确理解用户指令)、规划能力(Agent是否能够生成合理的路线规划)、工具使用(Agent是否能够正确使用地图服务API)和效率(Agent的响应时间)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有LLM在基本信息检索和路线规划任务上表现良好,但在受偏好约束的路线规划方面表现不佳。例如,在考虑用户偏好的路线规划任务中,模型的性能显著下降,表明在个性化出行应用方面仍有很大的改进空间。MobilityBench的评估结果为未来的研究方向提供了重要的参考。

🎯 应用场景

MobilityBench 有助于推动基于LLM的路线规划Agent在实际出行场景中的应用。通过提供一个标准化的评估平台,可以促进算法的改进和优化,提升用户体验。潜在应用包括:个性化路线推荐、智能出行助手、自动驾驶导航等。未来,可以扩展MobilityBench,支持更多类型的出行场景和评估指标。

📄 摘要(原文)

Route-planning agents powered by large language models (LLMs) have emerged as a promising paradigm for supporting everyday human mobility through natural language interaction and tool-mediated decision making. However, systematic evaluation in real-world mobility settings is hindered by diverse routing demands, non-deterministic mapping services, and limited reproducibility. In this study, we introduce MobilityBench, a scalable benchmark for evaluating LLM-based route-planning agents in real-world mobility scenarios. MobilityBench is constructed from large-scale, anonymized real user queries collected from Amap and covers a broad spectrum of route-planning intents across multiple cities worldwide. To enable reproducible, end-to-end evaluation, we design a deterministic API-replay sandbox that eliminates environmental variance from live services. We further propose a multi-dimensional evaluation protocol centered on outcome validity, complemented by assessments of instruction understanding, planning, tool use, and efficiency. Using MobilityBench, we evaluate multiple LLM-based route-planning agents across diverse real-world mobility scenarios and provide an in-depth analysis of their behaviors and performance. Our findings reveal that current models perform competently on Basic information retrieval and Route Planning tasks, yet struggle considerably with Preference-Constrained Route Planning, underscoring significant room for improvement in personalized mobility applications. We publicly release the benchmark data, evaluation toolkit, and documentation at https://github.com/AMAP-ML/MobilityBench .