Making Large Language Models Better Planners with Reasoning-Decision Alignment
作者: Zhijian Huang, Tao Tang, Shaoxiang Chen, Sihao Lin, Zequn Jie, Lin Ma, Guangrun Wang, Xiaodan Liang
分类: cs.CV
发布日期: 2024-08-25
💡 一句话要点
提出RDA-Driver,通过推理-决策对齐提升大语言模型在自动驾驶规划中的性能。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 大型语言模型 思维链 推理-决策对齐 多模态融合
📋 核心要点
- 现有基于LLM的自动驾驶方法存在思维链(CoT)推理与最终决策不一致的问题,导致规划性能受限。
- 提出RDA-Driver,通过多模态LLM同时进行CoT推理和规划,并引入推理-决策对齐约束,保证二者一致性。
- 在nuScenes和DriveLM-nuScenes数据集上,RDA-Driver取得了SOTA的规划性能,显著降低了L2误差和碰撞率。
📝 摘要(中文)
过去十年,数据驱动的方法在自动驾驶(AD)中被广泛采用,但面临数据集偏差和不可解释性的问题。受人类驾驶的知识驱动特性的启发,最近的方法探索了大型语言模型(LLM)在提高交通场景理解和决策方面的潜力。他们发现,LLM在下游数据上进行预训练-微调,并结合思维链(CoT)推理过程,可以增强可解释性和场景理解。然而,这种流行的策略存在CoT与后续决策之间不一致的问题,而之前的基于LLM的AD方法对此未作处理。为了解决这个问题,我们提出了一个基于多模态增强LLM的端到端决策模型,该模型同时执行CoT推理并输出规划结果。此外,我们提出了推理-决策对齐约束,以保证CoT和规划结果之间的一致性。我们还重新设计了CoT,使模型能够理解复杂场景并提高决策性能。我们将提出的具有推理-决策对齐的大型语言规划器命名为RDA-Driver。在nuScenes和DriveLM-nuScenes基准上的实验评估表明,我们的RDA-Driver在提高端到端AD系统的性能方面是有效的。具体来说,我们的RDA-Driver在nuScenes数据集上实现了最先进的规划性能,L2误差为0.80,碰撞率为0.32,并且在具有挑战性的DriveLM-nuScenes基准上取得了领先的结果,L2误差为0.82,碰撞率为0.38。
🔬 方法详解
问题定义:现有基于大型语言模型(LLM)的自动驾驶规划方法,虽然利用了LLM的推理能力,但存在思维链(CoT)推理过程与最终决策结果不一致的问题。这种不一致性导致模型无法有效地利用推理过程来指导决策,从而限制了规划性能的提升。现有方法未能充分解决CoT与决策之间的对齐问题,使得模型在复杂场景下的表现不佳。
核心思路:RDA-Driver的核心思路是建立推理过程与决策结果之间的强关联,通过推理-决策对齐约束来保证二者的一致性。具体来说,模型同时执行CoT推理和规划,并利用对齐约束来迫使规划结果与推理过程相符。这种设计旨在使模型能够更好地利用推理过程来指导决策,从而提高规划性能。此外,重新设计的CoT能够更好地理解复杂场景,为决策提供更准确的信息。
技术框架:RDA-Driver是一个基于多模态增强LLM的端到端决策模型。整体框架包含以下几个主要模块:1) 多模态输入编码器:用于处理来自不同传感器(如摄像头、激光雷达)的输入数据,并将其编码为LLM可以理解的表示。2) LLM推理与规划模块:利用LLM同时执行CoT推理和规划,生成推理过程和规划轨迹。3) 推理-决策对齐约束模块:用于计算推理过程和规划结果之间的对齐损失,并将其作为训练目标的一部分。4) 决策执行模块:将规划轨迹转化为车辆的控制指令,实现自动驾驶。
关键创新:RDA-Driver的关键创新在于提出了推理-决策对齐约束。与现有方法不同,RDA-Driver不仅利用LLM进行推理和规划,还通过对齐约束来保证推理过程和规划结果的一致性。这种对齐约束使得模型能够更好地利用推理过程来指导决策,从而提高了规划性能。此外,重新设计的CoT能够更好地理解复杂场景,为决策提供更准确的信息。
关键设计:RDA-Driver的关键设计包括:1) 推理-决策对齐损失函数:用于衡量推理过程和规划结果之间的对齐程度。具体的损失函数形式未知,但其目标是最小化推理过程与规划结果之间的差异。2) CoT重新设计:针对自动驾驶场景的特点,重新设计了CoT的内容和结构,使其能够更好地描述交通规则、车辆行为等信息。3) 多模态融合策略:采用某种多模态融合策略(具体策略未知)将来自不同传感器的输入数据融合在一起,为LLM提供更全面的场景信息。
🖼️ 关键图片
📊 实验亮点
RDA-Driver在nuScenes数据集上实现了最先进的规划性能,L2误差为0.80,碰撞率为0.32。在更具挑战性的DriveLM-nuScenes基准上,RDA-Driver也取得了领先的结果,L2误差为0.82,碰撞率为0.38。这些实验结果表明,RDA-Driver在提高端到端自动驾驶系统的性能方面是有效的,尤其是在复杂场景下,能够显著降低碰撞率。
🎯 应用场景
RDA-Driver具有广泛的应用前景,可用于提升自动驾驶系统的安全性、可靠性和可解释性。该研究成果可应用于各种自动驾驶场景,如城市道路、高速公路等。通过提高自动驾驶系统的规划能力,RDA-Driver有望减少交通事故,提高交通效率,并为人们提供更安全、舒适的出行体验。此外,该研究思路也可推广到其他需要推理和决策的AI应用领域。
📄 摘要(原文)
Data-driven approaches for autonomous driving (AD) have been widely adopted in the past decade but are confronted with dataset bias and uninterpretability. Inspired by the knowledge-driven nature of human driving, recent approaches explore the potential of large language models (LLMs) to improve understanding and decision-making in traffic scenarios. They find that the pretrain-finetune paradigm of LLMs on downstream data with the Chain-of-Thought (CoT) reasoning process can enhance explainability and scene understanding. However, such a popular strategy proves to suffer from the notorious problems of misalignment between the crafted CoTs against the consequent decision-making, which remains untouched by previous LLM-based AD methods. To address this problem, we motivate an end-to-end decision-making model based on multimodality-augmented LLM, which simultaneously executes CoT reasoning and carries out planning results. Furthermore, we propose a reasoning-decision alignment constraint between the paired CoTs and planning results, imposing the correspondence between reasoning and decision-making. Moreover, we redesign the CoTs to enable the model to comprehend complex scenarios and enhance decision-making performance. We dub our proposed large language planners with reasoning-decision alignment as RDA-Driver. Experimental evaluations on the nuScenes and DriveLM-nuScenes benchmarks demonstrate the effectiveness of our RDA-Driver in enhancing the performance of end-to-end AD systems. Specifically, our RDA-Driver achieves state-of-the-art planning performance on the nuScenes dataset with 0.80 L2 error and 0.32 collision rate, and also achieves leading results on challenging DriveLM-nuScenes benchmarks with 0.82 L2 error and 0.38 collision rate.