DiMA: An LLM-Powered Ride-Hailing Assistant at DiDi

📄 arXiv: 2503.04768v3 📥 PDF

作者: Yansong Ning, Shuowei Cai, Wei Li, Jun Fang, Naiqiang Tan, Hua Chai, Hao Liu

分类: cs.CL, cs.CY, cs.HC

发布日期: 2025-02-12 (更新: 2025-10-09)

备注: KDD 2025

🔗 代码/项目: GITHUB


💡 一句话要点

DiMA:滴滴出行中基于LLM的出行助理,提供时空感知的对话式服务。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 出行助理 大型语言模型 时空感知 对话系统 订单规划 持续学习 智能交通

📋 核心要点

  1. 现有出行服务在复杂时空环境下,难以通过自然对话提供无缝服务,订单规划和响应生成面临挑战。
  2. DiMA通过时空感知订单规划模块和成本敏感的对话系统,结合持续微调,实现了高效智能的出行助理。
  3. DiMA在实际部署中表现出色,订单规划准确率达93%,响应生成准确率达92%,显著优于现有方法。

📝 摘要(中文)

本文介绍了滴滴出行中部署的基于LLM的出行助理DiMA。DiMA旨在通过自然高效的对话界面,在动态复杂的时空城市环境中提供无缝的出行服务及其他功能。为此,我们提出了一个时空感知的订单规划模块,该模块利用外部工具进行精确的时空推理和渐进式订单规划。此外,我们开发了一个经济高效的对话系统,该系统集成了多种类型的对话回复器和成本感知的LLM配置,以处理不同的对话目标,并在响应质量和延迟之间进行权衡。此外,我们引入了一种持续微调方案,该方案利用真实世界的交互和模拟对话,使助理的行为与人类偏好的决策过程保持一致。在滴滴应用程序中部署后,DiMA表现出了卓越的性能,在真实世界的交互中,订单规划的准确率达到93%,响应生成的准确率达到92%。离线实验进一步验证了DiMA的能力,与三个最先进的代理框架相比,订单规划的改进高达70.23%,响应生成的改进高达321.27%,同时延迟降低了0.72倍至5.47倍。这些结果表明,DiMA是一个有效、高效和智能的出行服务移动助理。我们的项目已在https://github.com/usail-hkust/DiMA 上发布,我们还发布了MCP服务(https://mcp.didichuxing.com/api),以促进出行研究社区。

🔬 方法详解

问题定义:论文旨在解决现有出行服务中,用户在复杂时空环境下难以通过自然对话界面获得便捷服务的问题。现有方法在精确时空推理、高效订单规划以及高质量对话生成方面存在不足,难以满足用户需求。

核心思路:论文的核心思路是构建一个时空感知的、成本敏感的对话式出行助理。通过结合外部工具进行精确的时空推理,并利用多种对话回复器和LLM配置来平衡响应质量和延迟,从而提供更智能、更高效的出行服务。

技术框架:DiMA的整体架构包含以下几个主要模块:1) 时空感知订单规划模块,负责根据用户需求和实时交通状况进行订单规划;2) 对话系统,集成了多种类型的对话回复器和成本感知的LLM配置,用于处理不同的对话目标;3) 持续微调模块,利用真实世界的交互和模拟对话来优化助理的行为。

关键创新:论文最重要的技术创新点在于时空感知的订单规划模块和成本敏感的对话系统。时空感知模块能够更准确地理解用户意图和环境信息,从而进行更合理的订单规划。成本敏感的对话系统则能够在保证响应质量的同时,降低延迟和计算成本。

关键设计:在时空感知订单规划模块中,论文可能使用了地理信息系统(GIS)数据和实时交通数据,并设计了相应的算法来进行路径规划和预计到达时间(ETA)的计算。在对话系统中,论文可能使用了不同的LLM配置和对话策略,并根据对话目标和用户反馈动态调整这些配置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DiMA在滴滴出行App的实际部署中表现出色,订单规划准确率达到93%,响应生成准确率达到92%。与三个最先进的代理框架相比,离线实验表明,DiMA在订单规划方面提升高达70.23%,在响应生成方面提升高达321.27%,同时延迟降低了0.72倍至5.47倍。

🎯 应用场景

DiMA的研究成果可广泛应用于出行服务领域,例如滴滴、Uber等。该技术能够提升用户体验,降低运营成本,并为未来的智能交通系统提供技术支持。此外,该研究思路还可以扩展到其他需要时空感知和对话交互的领域,如物流、外卖等。

📄 摘要(原文)

On-demand ride-hailing services like DiDi, Uber, and Lyft have transformed urban transportation, offering unmatched convenience and flexibility. In this paper, we introduce DiMA, an LLM-powered ride-hailing assistant deployed in DiDi Chuxing. Its goal is to provide seamless ride-hailing services and beyond through a natural and efficient conversational interface under dynamic and complex spatiotemporal urban contexts. To achieve this, we propose a spatiotemporal-aware order planning module that leverages external tools for precise spatiotemporal reasoning and progressive order planning. Additionally, we develop a cost-effective dialogue system that integrates multi-type dialog repliers with cost-aware LLM configurations to handle diverse conversation goals and trade-off response quality and latency. Furthermore, we introduce a continual fine-tuning scheme that utilizes real-world interactions and simulated dialogues to align the assistant's behavior with human preferred decision-making processes. Since its deployment in the DiDi application, DiMA has demonstrated exceptional performance, achieving 93% accuracy in order planning and 92% in response generation during real-world interactions. Offline experiments further validate DiMA capabilities, showing improvements of up to 70.23% in order planning and 321.27% in response generation compared to three state-of-the-art agent frameworks, while reducing latency by $0.72\times$ to $5.47\times$. These results establish DiMA as an effective, efficient, and intelligent mobile assistant for ride-hailing services. Our project is released at https://github.com/usail-hkust/DiMA and we also release the MCP service (https://mcp.didichuxing.com/api) to foster the ride-hailing research community.