MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

作者: Zhiheng Song, Jingshuai Zhang, Chuan Qin, Chao Wang, Chao Chen, Longfei Xu, Kaikui Liu, Xiangxiang Chu, Hengshu Zhu

分类: cs.AI

发布日期: 2026-02-26

🔗 代码/项目: GITHUB

💡 一句话要点

提出 MobilityBench，用于评估真实世界出行场景下的路线规划Agent

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 路线规划 大型语言模型 真实世界场景 基准测试 出行应用

📋 核心要点

现有路线规划Agent难以在真实世界场景中进行系统评估，面临需求多样、服务不确定和复现性差等挑战。
MobilityBench 旨在通过大规模真实用户数据、确定性API重放沙箱和多维度评估协议，解决上述评估难题。
实验表明，现有LLM在基本任务上表现良好，但在个性化偏好约束的路线规划上仍有显著提升空间。

📝 摘要（中文）

本文介绍了一个名为 MobilityBench 的可扩展基准，用于评估基于大型语言模型（LLM）的路线规划Agent在真实世界出行场景中的表现。MobilityBench 构建自高德地图收集的大规模匿名真实用户查询，涵盖全球多个城市的广泛路线规划意图。为了实现可复现的端到端评估，我们设计了一个确定性的 API 重放沙箱，消除了来自实时服务的环境差异。此外，我们提出了一个以结果有效性为中心的多维度评估协议，并辅以对指令理解、规划、工具使用和效率的评估。我们使用 MobilityBench 评估了多个基于 LLM 的路线规划Agent在各种真实世界出行场景中的表现，并对它们的行为和性能进行了深入分析。我们的研究结果表明，当前的模型在基本信息检索和路线规划任务上表现良好，但在受偏好约束的路线规划方面表现不佳，这表明在个性化出行应用方面仍有很大的改进空间。我们公开发布了基准数据、评估工具包和文档。

🔬 方法详解

问题定义：现有基于LLM的路线规划Agent缺乏在真实世界场景下的系统性评估。主要痛点在于：1) 真实用户需求的多样性；2) 地图服务API的非确定性，导致评估结果难以复现；3) 缺乏统一的评估标准和数据集。这些问题阻碍了LLM在路线规划领域的进一步发展和应用。

核心思路：MobilityBench的核心思路是构建一个可控、可复现、且具有代表性的真实世界路线规划评估环境。通过收集大规模真实用户查询数据，并设计确定性的API重放沙箱，消除环境因素的干扰，从而实现对LLM路线规划Agent的客观评估。此外，设计多维度评估指标，全面衡量Agent的性能。

技术框架：MobilityBench主要包含以下几个模块：1) 数据集构建模块：从高德地图收集大规模匿名真实用户查询数据，涵盖多个城市和各种路线规划意图。2) API重放沙箱：设计确定性的API重放机制，模拟真实地图服务API的调用，并保证每次调用结果的一致性。3) 评估模块：定义多维度评估指标，包括结果有效性、指令理解、规划能力、工具使用和效率等。4) Agent评估模块：使用MobilityBench评估各种基于LLM的路线规划Agent。

关键创新：MobilityBench的关键创新在于：1) 真实世界数据驱动：使用大规模真实用户查询数据，更贴近实际应用场景。2) 确定性API重放沙箱：解决了地图服务API非确定性带来的评估难题，保证了评估结果的可复现性。3) 多维度评估协议：从多个角度评估Agent的性能，更全面地反映了Agent的优缺点。

关键设计：API重放沙箱通过记录API请求和响应，并在评估时重放这些记录，从而保证API调用结果的一致性。评估指标包括：结果有效性（路线是否可达、是否符合用户意图）、指令理解（Agent是否正确理解用户指令）、规划能力（Agent是否能够生成合理的路线规划）、工具使用（Agent是否能够正确使用地图服务API）和效率（Agent的响应时间）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有LLM在基本信息检索和路线规划任务上表现良好，但在受偏好约束的路线规划方面表现不佳。例如，在考虑用户偏好的路线规划任务中，模型的性能显著下降，表明在个性化出行应用方面仍有很大的改进空间。MobilityBench的评估结果为未来的研究方向提供了重要的参考。

🎯 应用场景

MobilityBench 有助于推动基于LLM的路线规划Agent在实际出行场景中的应用。通过提供一个标准化的评估平台，可以促进算法的改进和优化，提升用户体验。潜在应用包括：个性化路线推荐、智能出行助手、自动驾驶导航等。未来，可以扩展MobilityBench，支持更多类型的出行场景和评估指标。

📄 摘要（原文）

Route-planning agents powered by large language models (LLMs) have emerged as a promising paradigm for supporting everyday human mobility through natural language interaction and tool-mediated decision making. However, systematic evaluation in real-world mobility settings is hindered by diverse routing demands, non-deterministic mapping services, and limited reproducibility. In this study, we introduce MobilityBench, a scalable benchmark for evaluating LLM-based route-planning agents in real-world mobility scenarios. MobilityBench is constructed from large-scale, anonymized real user queries collected from Amap and covers a broad spectrum of route-planning intents across multiple cities worldwide. To enable reproducible, end-to-end evaluation, we design a deterministic API-replay sandbox that eliminates environmental variance from live services. We further propose a multi-dimensional evaluation protocol centered on outcome validity, complemented by assessments of instruction understanding, planning, tool use, and efficiency. Using MobilityBench, we evaluate multiple LLM-based route-planning agents across diverse real-world mobility scenarios and provide an in-depth analysis of their behaviors and performance. Our findings reveal that current models perform competently on Basic information retrieval and Route Planning tasks, yet struggle considerably with Preference-Constrained Route Planning, underscoring significant room for improvement in personalized mobility applications. We publicly release the benchmark data, evaluation toolkit, and documentation at https://github.com/AMAP-ML/MobilityBench .

MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理