LMDrive: Closed-Loop End-to-End Driving with Large Language Models

📄 arXiv: 2312.07488v2 📥 PDF

作者: Hao Shao, Yuxuan Hu, Letian Wang, Steven L. Waslander, Yu Liu, Hongsheng Li

分类: cs.CV, cs.AI, cs.RO

发布日期: 2023-12-12 (更新: 2023-12-21)

备注: project page: https://hao-shao.com/projects/lmdrive.html

🔗 代码/项目: GITHUB


💡 一句话要点

LMDrive:提出基于大语言模型的端到端闭环自动驾驶框架,实现语言引导的自主驾驶。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 大语言模型 端到端学习 闭环控制 多模态融合 自然语言指令 智能交通

📋 核心要点

  1. 现有自动驾驶方法在处理长尾事件和复杂城市场景时面临挑战,且依赖有限格式的输入,限制了理解语言信息和与人类交互的能力。
  2. LMDrive通过整合多模态传感器数据和自然语言指令,实现了语言引导的端到端闭环自动驾驶,从而能够与人类和导航软件进行交互。
  3. 论文发布了包含64K指令跟随数据片段的数据集和LangAuto基准测试,并通过大量闭环实验验证了LMDrive的有效性。

📝 摘要(中文)

本文介绍了一种新颖的、语言引导的端到端闭环自动驾驶框架LMDrive。该框架能够独特地处理和整合多模态传感器数据与自然语言指令,从而在真实的指令环境中实现与人类和导航软件的交互。为了促进基于语言的闭环自动驾驶的进一步研究,我们还公开发布了相应的数据集,其中包括大约64K的指令跟随数据片段,以及LangAuto基准测试,用于测试系统处理复杂指令和具有挑战性的驾驶场景的能力。大量的闭环实验证明了LMDrive的有效性。据我们所知,这是第一个利用LLM进行闭环端到端自动驾驶的工作。代码、模型和数据集可在https://github.com/opendilab/LMDrive找到。

🔬 方法详解

问题定义:现有自动驾驶系统难以处理复杂和未预见的场景,并且缺乏与人类自然语言交互的能力。它们通常依赖于有限格式的输入,如传感器数据和导航航点,这限制了系统理解高级指令和适应动态环境的能力。因此,需要一种能够理解自然语言指令并将其融入到驾驶决策中的自动驾驶框架。

核心思路:LMDrive的核心思路是利用大型语言模型(LLM)强大的推理能力,将自然语言指令与多模态传感器数据相结合,从而实现更智能、更灵活的自动驾驶。通过将LLM作为驾驶决策的核心,系统可以更好地理解人类意图,并根据环境变化做出相应的调整。

技术框架:LMDrive框架包含以下主要模块:1) 多模态数据输入模块,用于接收来自传感器(如摄像头、激光雷达)的数据和自然语言指令;2) LLM处理模块,用于解析自然语言指令,并结合传感器数据进行推理和决策;3) 运动规划和控制模块,用于根据LLM的决策生成车辆的运动轨迹,并控制车辆执行相应的动作。整个过程形成一个闭环,系统可以根据实际驾驶情况不断调整决策。

关键创新:LMDrive的关键创新在于将LLM引入到端到端闭环自动驾驶系统中,实现了语言引导的自主驾驶。与传统的自动驾驶方法相比,LMDrive能够更好地理解人类意图,并根据自然语言指令进行驾驶决策。此外,该框架还能够处理多模态传感器数据,从而更全面地了解周围环境。

关键设计:具体的技术细节包括:如何将多模态数据有效地输入到LLM中,如何设计合适的提示工程(prompt engineering)来引导LLM进行驾驶决策,以及如何将LLM的输出转化为车辆的控制指令。此外,损失函数的设计也至关重要,需要考虑驾驶安全、指令遵循等多个因素。论文中可能还涉及了特定的网络结构设计,以优化LLM在自动驾驶任务中的性能(具体细节未知)。

📊 实验亮点

论文通过大量的闭环实验验证了LMDrive的有效性。具体性能数据(例如,成功完成指令的比例、驾驶安全性指标等)以及与现有基线的对比结果(例如,传统自动驾驶算法的性能)未知,但摘要中提到LMDrive在处理复杂指令和具有挑战性的驾驶场景方面表现出色。数据集和LangAuto基准测试的发布也为后续研究提供了便利。

🎯 应用场景

LMDrive具有广泛的应用前景,包括自动驾驶出租车、物流配送、以及辅助驾驶系统等。该技术可以提高自动驾驶系统的智能化水平,使其能够更好地适应复杂的城市环境,并与人类进行更自然的交互。未来,LMDrive有望成为实现完全自动驾驶的关键技术之一,并推动智能交通系统的发展。

📄 摘要(原文)

Despite significant recent progress in the field of autonomous driving, modern methods still struggle and can incur serious accidents when encountering long-tail unforeseen events and challenging urban scenarios. On the one hand, large language models (LLM) have shown impressive reasoning capabilities that approach "Artificial General Intelligence". On the other hand, previous autonomous driving methods tend to rely on limited-format inputs (e.g. sensor data and navigation waypoints), restricting the vehicle's ability to understand language information and interact with humans. To this end, this paper introduces LMDrive, a novel language-guided, end-to-end, closed-loop autonomous driving framework. LMDrive uniquely processes and integrates multi-modal sensor data with natural language instructions, enabling interaction with humans and navigation software in realistic instructional settings. To facilitate further research in language-based closed-loop autonomous driving, we also publicly release the corresponding dataset which includes approximately 64K instruction-following data clips, and the LangAuto benchmark that tests the system's ability to handle complex instructions and challenging driving scenarios. Extensive closed-loop experiments are conducted to demonstrate LMDrive's effectiveness. To the best of our knowledge, we're the very first work to leverage LLMs for closed-loop end-to-end autonomous driving. Codes, models, and datasets can be found at https://github.com/opendilab/LMDrive