MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

作者: Zhiheng Song, Jingshuai Zhang, Chuan Qin, Chao Wang, Chao Chen, Longfei Xu, Kaikui Liu, Xiangxiang Chu, Hengshu Zhu

分类: cs.AI

发布日期: 2026-02-28

💡 一句话要点

MobilityBench：一个用于评估真实世界出行场景中路径规划Agent的基准测试

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 路径规划 大型语言模型 基准测试 真实世界场景 智能出行

📋 核心要点

现有路径规划Agent在真实世界场景中缺乏系统评估，面临需求多样、服务不确定和复现性差等挑战。
MobilityBench通过大规模真实用户查询构建基准，并设计确定性API重放沙箱，实现可复现的端到端评估。
实验表明，现有模型在基本任务中表现良好，但在偏好约束路径规划方面仍有提升空间，为个性化应用指明方向。

📝 摘要（中文）

本文提出了MobilityBench，一个可扩展的基准测试，用于评估基于大型语言模型（LLM）的路径规划Agent在真实世界出行场景中的表现。MobilityBench构建自高德地图收集的大规模匿名真实用户查询，覆盖了全球多个城市的广泛路径规划意图。为了实现可复现的端到端评估，设计了一个确定性的API重放沙箱，消除了来自实时服务的环境差异。此外，还提出了一个以结果有效性为中心的多维度评估协议，并辅以对指令理解、规划、工具使用和效率的评估。使用MobilityBench，评估了多个基于LLM的路径规划Agent在各种真实世界出行场景中的表现，并对其行为和性能进行了深入分析。研究结果表明，当前模型在基本信息检索和路径规划任务中表现良好，但在受偏好约束的路径规划方面表现不佳，突显了个性化出行应用中存在显著的改进空间。该基准数据、评估工具包和文档已公开发布。

🔬 方法详解

问题定义：现有基于LLM的路径规划Agent缺乏在真实世界场景下的系统性评估。主要痛点在于：一是真实用户的出行需求非常多样化；二是依赖的地图服务API具有不确定性，导致评估结果难以复现；三是缺乏大规模、高质量的真实数据用于训练和评估。

核心思路：本文的核心思路是构建一个可控、可复现、大规模的真实世界路径规划基准测试环境。通过收集真实用户的查询数据，并设计确定性的API重放机制，来消除环境因素的干扰，从而实现对不同Agent的公平、客观评估。

技术框架：MobilityBench的整体框架包括以下几个主要模块： 1. 数据收集模块：从高德地图收集大规模匿名化的真实用户查询数据，涵盖多个城市的各种出行意图。 2. API重放沙箱：设计一个确定性的API重放机制，通过记录和回放API调用，消除实时地图服务的不确定性，保证评估的可复现性。 3. 评估指标体系：提出一个多维度的评估协议，包括结果有效性、指令理解、规划能力、工具使用效率等多个方面。 4. Agent评估模块：使用MobilityBench对多个基于LLM的路径规划Agent进行评估，并分析其性能表现。

关键创新：MobilityBench的关键创新在于： 1. 真实数据驱动：使用大规模真实用户查询数据，更贴近实际应用场景。 2. 确定性评估环境：通过API重放沙箱，解决了地图服务不确定性带来的评估难题。 3. 多维度评估体系：从多个角度评估Agent的性能，更全面地反映其能力。

关键设计：API重放沙箱是关键设计之一，它通过记录Agent与地图服务API的交互过程，并在评估时回放这些交互，从而保证了评估环境的一致性。具体实现细节未知，但可以推测使用了某种缓存或模拟技术来避免对真实地图服务的依赖。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有的LLM路径规划Agent在基本信息检索和路径规划任务上表现尚可，但在处理带有偏好约束的路径规划任务时表现明显不足。例如，在考虑用户特定偏好（如避开拥堵、选择特定路线）的情况下，Agent的规划成功率显著下降，这表明个性化出行服务仍有很大的提升空间。

🎯 应用场景

MobilityBench为开发和评估基于LLM的路径规划Agent提供了一个标准化的平台，可应用于智能出行、自动驾驶、物流配送等领域。通过该基准，研究人员可以更有效地比较不同Agent的性能，并推动个性化出行服务的进步。未来，该基准可以扩展到更多城市和出行方式，以更好地服务于真实世界的出行需求。

📄 摘要（原文）

Route-planning agents powered by large language models (LLMs) have emerged as a promising paradigm for supporting everyday human mobility through natural language interaction and tool-mediated decision making. However, systematic evaluation in real-world mobility settings is hindered by diverse routing demands, non-deterministic mapping services, and limited reproducibility. In this study, we introduce MobilityBench, a scalable benchmark for evaluating LLM-based route-planning agents in real-world mobility scenarios. MobilityBench is constructed from large-scale, anonymized real user queries collected from Amap and covers a broad spectrum of route-planning intents across multiple cities worldwide. To enable reproducible, end-to-end evaluation, we design a deterministic API-replay sandbox that eliminates environmental variance from live services. We further propose a multi-dimensional evaluation protocol centered on outcome validity, complemented by assessments of instruction understanding, planning, tool use, and efficiency. Using MobilityBench, we evaluate multiple LLM-based route-planning agents across diverse real-world mobility scenarios and provide an in-depth analysis of their behaviors and performance. Our findings reveal that current models perform competently on Basic information retrieval and Route Planning tasks, yet struggle considerably with Preference-Constrained Route Planning, underscoring significant room for improvement in personalized mobility applications. We publicly release the benchmark data, evaluation toolkit, and documentation atthis https URL.

MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理