DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving

📄 arXiv: 2312.09245v3 📥 PDF

作者: Erfei Cui, Wenhai Wang, Zhiqi Li, Jiangwei Xie, Haoming Zou, Hanming Deng, Gen Luo, Lewei Lu, Xizhou Zhu, Jifeng Dai

分类: cs.CV

发布日期: 2023-12-14 (更新: 2025-12-17)

备注: Accepted to Visual Intelligence

期刊: Visual Intelligence, Volume 3, article number 22, (2025)

DOI: 10.1007/s44267-025-00095-w


💡 一句话要点

DriveMLM:对齐行为规划状态的多模态大语言模型用于自动驾驶

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 大语言模型 多模态学习 行为规划 决策模块

📋 核心要点

  1. 现有自动驾驶系统决策模块缺乏人类般的认知能力,难以处理复杂场景。
  2. DriveMLM利用多模态LLM建模行为规划,结合驾驶规则、传感器信息和用户指令进行决策。
  3. 实验表明,DriveMLM显著提升了Autopilot和Apollo在CARLA Town05 Long上的性能。

📝 摘要(中文)

本文介绍了一种基于大语言模型(LLM)的自动驾驶(AD)框架DriveMLM,该框架能够在真实的模拟器中执行闭环自动驾驶。该框架通过以下方式实现:(1)通过根据现成的运动规划模块标准化决策状态,弥合了语言决策和车辆控制命令之间的差距。(2)采用多模态LLM(MLLM)来建模模块化AD系统的行为规划模块,该模块使用驾驶规则、用户命令以及来自各种传感器(例如,摄像头、激光雷达)的输入作为输入,并做出驾驶决策并提供解释;该模型可以即插即用地应用于现有的AD系统(如Autopilot和Apollo)中,以进行闭环驾驶。(3)设计了一个有效的数据引擎来收集数据集,该数据集包括决策状态和相应的解释注释,用于模型训练和评估。大量的实验表明,用DriveMLM替换Autopilot和Apollo的决策模块分别在CARLA Town05 Long上带来了3.2和4.7个点的显著改进,证明了我们模型的有效性。希望这项工作可以作为LLM自动驾驶的基线。

🔬 方法详解

问题定义:现有自动驾驶系统中的决策模块通常依赖于复杂的规则和算法,难以像人类驾驶员一样进行推理和决策,尤其是在复杂和不确定的环境中。这些系统缺乏对驾驶场景的整体理解和灵活应变能力,导致在某些情况下性能下降或出现安全问题。现有方法难以将人类驾驶经验和知识融入到决策过程中。

核心思路:DriveMLM的核心思路是利用多模态大语言模型(MLLM)来模拟人类驾驶员的行为规划过程。通过将驾驶场景中的视觉信息(摄像头、激光雷达)和文本信息(驾驶规则、用户指令)融合,MLLM可以理解当前驾驶环境,并生成合理的驾驶决策和解释。这种方法旨在赋予自动驾驶系统类似人类的认知和推理能力,从而提高其在复杂环境中的适应性和安全性。

技术框架:DriveMLM的整体框架包括以下几个主要模块:1) 多模态输入模块:负责接收来自摄像头、激光雷达等传感器的信息,以及驾驶规则和用户指令等文本信息。2) 多模态LLM:作为核心决策模块,接收多模态输入,并生成驾驶决策和解释。3) 决策状态标准化模块:将LLM的语言决策转化为车辆控制命令,通过标准化的决策状态弥合语言决策和车辆控制命令之间的差距。4) 闭环控制模块:根据驾驶决策执行车辆控制,并在模拟器中进行闭环测试。

关键创新:DriveMLM的关键创新在于将多模态大语言模型应用于自动驾驶的行为规划模块。与传统的基于规则或算法的决策方法不同,DriveMLM能够利用LLM的强大语言理解和生成能力,进行更自然和智能的驾驶决策。此外,DriveMLM还设计了一个有效的数据引擎,用于收集包含决策状态和解释的数据集,从而支持模型的训练和评估。

关键设计:DriveMLM的关键设计包括:1) 多模态LLM的结构和训练方法:选择合适的MLLM架构,并使用包含驾驶场景、驾驶规则和驾驶决策的数据集进行训练。2) 决策状态的标准化方法:定义一组标准化的决策状态,例如车道保持、变道、加速、减速等,并将LLM的语言决策映射到这些状态。3) 数据引擎的设计:设计一个能够高效收集和标注驾驶数据的流程,包括决策状态和相应的解释。

📊 实验亮点

实验结果表明,用DriveMLM替换Autopilot和Apollo的决策模块分别在CARLA Town05 Long上带来了3.2和4.7个点的显著改进。这些结果证明了DriveMLM在自动驾驶任务中的有效性,并表明基于LLM的自动驾驶方法具有巨大的潜力。

🎯 应用场景

DriveMLM具有广泛的应用前景,可应用于各种自动驾驶场景,包括城市道路、高速公路和停车场等。该研究的实际价值在于提升自动驾驶系统的智能化水平和安全性,使其能够更好地适应复杂和不确定的驾驶环境。未来,DriveMLM有望成为自动驾驶技术的重要组成部分,推动自动驾驶技术的商业化和普及。

📄 摘要(原文)

Large language models (LLMs) have opened up new possibilities for intelligent agents, endowing them with human-like thinking and cognitive abilities. In this work, we delve into the potential of large language models (LLMs) in autonomous driving (AD). We introduce DriveMLM, an LLM-based AD framework that can perform close-loop autonomous driving in realistic simulators. To this end, (1) we bridge the gap between the language decisions and the vehicle control commands by standardizing the decision states according to the off-the-shelf motion planning module. (2) We employ a multimodal LLM (MLLM) to model the behavior planning module of a module AD system, which uses driving rules, user commands, and inputs from various sensors (e.g., camera, lidar) as input and makes driving decisions and provide explanations; This model can plug-and-play in existing AD systems such as Autopilot and Apollo for close-loop driving. (3) We design an effective data engine to collect a dataset that includes decision state and corresponding explanation annotation for model training and evaluation. We conduct extensive experiments and show that replacing the decision-making modules of the Autopilot and Apollo with DriveMLM resulted in significant improvements of 3.2 and 4.7 points on the CARLA Town05 Long respectively, demonstrating the effectiveness of our model. We hope this work can serve as a baseline for autonomous driving with LLMs.