Towards Interactive and Learnable Cooperative Driving Automation: a Large Language Model-Driven Decision-Making Framework

📄 arXiv: 2409.12812v3 📥 PDF

作者: Shiyu Fang, Jiaqi Liu, Mingyu Ding, Yiming Cui, Chen Lv, Peng Hang, Jian Sun

分类: cs.RO, cs.AI

发布日期: 2024-09-19 (更新: 2025-09-19)


💡 一句话要点

提出CoDrivingLLM,一个基于大语言模型的交互式、可学习的协同驾驶决策框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 协同驾驶 大语言模型 自动驾驶 思维链 交互式学习

📋 核心要点

  1. 现有协同驾驶方法缺乏交互性和持续学习能力,限制了其在复杂场景和不同等级协同驾驶自动化中的应用。
  2. CoDrivingLLM框架利用大语言模型进行决策,引入环境模块避免数学计算误差,并采用思维链推理增强稳定性。
  3. 实验结果验证了CoDrivingLLM的有效性,通过消融实验、不同经验推理和对比实验证明了其优越性。

📝 摘要(中文)

目前,联网自动驾驶汽车(CAVs)已在全球范围内开始开放道路测试,但其在复杂场景中的安全性和效率表现仍不尽如人意。协同驾驶利用CAVs的连接能力来实现大于个体之和的协同效应,使其成为提高CAVs在复杂场景中性能的一种有前景的方法。然而,缺乏交互和持续学习能力限制了当前协同驾驶在单一场景应用和特定的协同驾驶自动化(CDA)。为了应对这些挑战,本文提出了CoDrivingLLM,一个交互式和可学习的LLM驱动的协同驾驶框架,以实现全场景和全CDA。首先,由于大型语言模型(LLMs)不擅长处理数学计算,因此引入了一个环境模块来基于语义决策更新车辆位置,从而避免了LLM直接控制车辆位置的潜在错误。其次,基于SAE J3216标准定义的CDA的四个级别,我们提出了一种基于思维链(COT)的推理模块,包括状态感知、意图共享、协商和决策,从而增强了LLMs在多步骤推理任务中的稳定性。然后,通过推理过程中的冲突协调器来管理集中式冲突解决。最后,通过引入记忆模块并采用检索增强生成,CAVs被赋予了从过去经验中学习的能力。我们通过对协商模块的消融实验、不同经验的推理以及与其他协同驾驶方法的比较来验证所提出的CoDrivingLLM。

🔬 方法详解

问题定义:现有协同驾驶系统难以在复杂和动态的环境中有效工作,主要痛点在于缺乏足够的交互能力和从经验中学习的能力。这导致系统难以适应新的场景和协同驾驶自动化等级,限制了其通用性和实用性。此外,直接使用LLM控制车辆可能由于其数学计算能力不足而导致误差。

核心思路:CoDrivingLLM的核心思路是利用大语言模型(LLM)的强大推理和决策能力,结合环境模块、思维链(COT)推理、冲突协调器和记忆模块,构建一个交互式和可学习的协同驾驶框架。通过环境模块避免LLM直接控制车辆位置,通过COT推理增强多步骤决策的稳定性,通过冲突协调器解决车辆间的冲突,并通过记忆模块实现从经验中学习。

技术框架:CoDrivingLLM框架包含以下主要模块:1) 环境模块:负责根据LLM的语义决策更新车辆位置,避免直接控制带来的误差。2) 基于思维链(COT)的推理模块:包含状态感知、意图共享、协商和决策四个阶段,增强LLM在多步骤推理任务中的稳定性。3) 冲突协调器:集中管理和解决车辆间的冲突。4) 记忆模块:通过检索增强生成,使CAV能够从过去的经验中学习。

关键创新:该论文的关键创新在于将大语言模型应用于协同驾驶,并设计了一套完整的框架来克服LLM在数值计算和多步骤推理方面的局限性。通过环境模块、COT推理、冲突协调器和记忆模块的协同工作,实现了交互式和可学习的协同驾驶。

关键设计:COT推理模块的设计是关键。它将复杂的协同驾驶决策分解为状态感知、意图共享、协商和决策四个步骤,每个步骤都由LLM进行推理。冲突协调器采用集中式策略,根据预设规则解决车辆间的冲突。记忆模块使用检索增强生成,从历史经验中检索相关信息,辅助LLM进行决策。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过消融实验验证了协商模块的重要性,结果表明加入协商模块可以显著提高协同驾驶的性能。此外,实验还对比了不同经验的推理效果,结果表明CoDrivingLLM能够从经验中学习并提升决策能力。与其他协同驾驶方法相比,CoDrivingLLM在复杂场景中表现出更强的适应性和鲁棒性。

🎯 应用场景

CoDrivingLLM具有广泛的应用前景,可应用于自动驾驶出租车、自动驾驶物流车队、以及其他需要多车辆协同的场景。该研究有助于提高自动驾驶车辆在复杂交通环境中的安全性、效率和适应性,加速自动驾驶技术的商业化落地,并为未来的智能交通系统提供技术支撑。

📄 摘要(原文)

At present, Connected Autonomous Vehicles (CAVs) have begun to open road testing around the world, but their safety and efficiency performance in complex scenarios is still not satisfactory. Cooperative driving leverages the connectivity ability of CAVs to achieve synergies greater than the sum of their parts, making it a promising approach to improving CAV performance in complex scenarios. However, the lack of interaction and continuous learning ability limits current cooperative driving to single-scenario applications and specific Cooperative Driving Automation (CDA). To address these challenges, this paper proposes CoDrivingLLM, an interactive and learnable LLM-driven cooperative driving framework, to achieve all-scenario and all-CDA. First, since Large Language Models(LLMs) are not adept at handling mathematical calculations, an environment module is introduced to update vehicle positions based on semantic decisions, thus avoiding potential errors from direct LLM control of vehicle positions. Second, based on the four levels of CDA defined by the SAE J3216 standard, we propose a Chain-of-Thought (COT) based reasoning module that includes state perception, intent sharing, negotiation, and decision-making, enhancing the stability of LLMs in multi-step reasoning tasks. Centralized conflict resolution is then managed through a conflict coordinator in the reasoning process. Finally, by introducing a memory module and employing retrieval-augmented generation, CAVs are endowed with the ability to learn from their past experiences. We validate the proposed CoDrivingLLM through ablation experiments on the negotiation module, reasoning with different shots experience, and comparison with other cooperative driving methods.