Making Large Language Models Better Planners with Reasoning-Decision Alignment

作者: Zhijian Huang, Tao Tang, Shaoxiang Chen, Sihao Lin, Zequn Jie, Lin Ma, Guangrun Wang, Xiaodan Liang

分类: cs.CV

发布日期: 2024-08-25

💡 一句话要点

提出RDA-Driver，通过推理-决策对齐提升大语言模型在自动驾驶规划中的性能。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 大型语言模型 思维链 推理-决策对齐 多模态融合

📋 核心要点

现有基于LLM的自动驾驶方法存在思维链（CoT）推理与最终决策不一致的问题，导致规划性能受限。
提出RDA-Driver，通过多模态LLM同时进行CoT推理和规划，并引入推理-决策对齐约束，保证二者一致性。
在nuScenes和DriveLM-nuScenes数据集上，RDA-Driver取得了SOTA的规划性能，显著降低了L2误差和碰撞率。

📝 摘要（中文）

过去十年，数据驱动的方法在自动驾驶（AD）中被广泛采用，但面临数据集偏差和不可解释性的问题。受人类驾驶的知识驱动特性的启发，最近的方法探索了大型语言模型（LLM）在提高交通场景理解和决策方面的潜力。他们发现，LLM在下游数据上进行预训练-微调，并结合思维链（CoT）推理过程，可以增强可解释性和场景理解。然而，这种流行的策略存在CoT与后续决策之间不一致的问题，而之前的基于LLM的AD方法对此未作处理。为了解决这个问题，我们提出了一个基于多模态增强LLM的端到端决策模型，该模型同时执行CoT推理并输出规划结果。此外，我们提出了推理-决策对齐约束，以保证CoT和规划结果之间的一致性。我们还重新设计了CoT，使模型能够理解复杂场景并提高决策性能。我们将提出的具有推理-决策对齐的大型语言规划器命名为RDA-Driver。在nuScenes和DriveLM-nuScenes基准上的实验评估表明，我们的RDA-Driver在提高端到端AD系统的性能方面是有效的。具体来说，我们的RDA-Driver在nuScenes数据集上实现了最先进的规划性能，L2误差为0.80，碰撞率为0.32，并且在具有挑战性的DriveLM-nuScenes基准上取得了领先的结果，L2误差为0.82，碰撞率为0.38。

🔬 方法详解

问题定义：现有基于大型语言模型（LLM）的自动驾驶规划方法，虽然利用了LLM的推理能力，但存在思维链（CoT）推理过程与最终决策结果不一致的问题。这种不一致性导致模型无法有效地利用推理过程来指导决策，从而限制了规划性能的提升。现有方法未能充分解决CoT与决策之间的对齐问题，使得模型在复杂场景下的表现不佳。

核心思路：RDA-Driver的核心思路是建立推理过程与决策结果之间的强关联，通过推理-决策对齐约束来保证二者的一致性。具体来说，模型同时执行CoT推理和规划，并利用对齐约束来迫使规划结果与推理过程相符。这种设计旨在使模型能够更好地利用推理过程来指导决策，从而提高规划性能。此外，重新设计的CoT能够更好地理解复杂场景，为决策提供更准确的信息。

技术框架：RDA-Driver是一个基于多模态增强LLM的端到端决策模型。整体框架包含以下几个主要模块：1) 多模态输入编码器：用于处理来自不同传感器（如摄像头、激光雷达）的输入数据，并将其编码为LLM可以理解的表示。2) LLM推理与规划模块：利用LLM同时执行CoT推理和规划，生成推理过程和规划轨迹。3) 推理-决策对齐约束模块：用于计算推理过程和规划结果之间的对齐损失，并将其作为训练目标的一部分。4) 决策执行模块：将规划轨迹转化为车辆的控制指令，实现自动驾驶。

关键创新：RDA-Driver的关键创新在于提出了推理-决策对齐约束。与现有方法不同，RDA-Driver不仅利用LLM进行推理和规划，还通过对齐约束来保证推理过程和规划结果的一致性。这种对齐约束使得模型能够更好地利用推理过程来指导决策，从而提高了规划性能。此外，重新设计的CoT能够更好地理解复杂场景，为决策提供更准确的信息。

关键设计：RDA-Driver的关键设计包括：1) 推理-决策对齐损失函数：用于衡量推理过程和规划结果之间的对齐程度。具体的损失函数形式未知，但其目标是最小化推理过程与规划结果之间的差异。2) CoT重新设计：针对自动驾驶场景的特点，重新设计了CoT的内容和结构，使其能够更好地描述交通规则、车辆行为等信息。3) 多模态融合策略：采用某种多模态融合策略（具体策略未知）将来自不同传感器的输入数据融合在一起，为LLM提供更全面的场景信息。

🖼️ 关键图片

📊 实验亮点

RDA-Driver在nuScenes数据集上实现了最先进的规划性能，L2误差为0.80，碰撞率为0.32。在更具挑战性的DriveLM-nuScenes基准上，RDA-Driver也取得了领先的结果，L2误差为0.82，碰撞率为0.38。这些实验结果表明，RDA-Driver在提高端到端自动驾驶系统的性能方面是有效的，尤其是在复杂场景下，能够显著降低碰撞率。

🎯 应用场景

RDA-Driver具有广泛的应用前景，可用于提升自动驾驶系统的安全性、可靠性和可解释性。该研究成果可应用于各种自动驾驶场景，如城市道路、高速公路等。通过提高自动驾驶系统的规划能力，RDA-Driver有望减少交通事故，提高交通效率，并为人们提供更安全、舒适的出行体验。此外，该研究思路也可推广到其他需要推理和决策的AI应用领域。

📄 摘要（原文）

Data-driven approaches for autonomous driving (AD) have been widely adopted in the past decade but are confronted with dataset bias and uninterpretability. Inspired by the knowledge-driven nature of human driving, recent approaches explore the potential of large language models (LLMs) to improve understanding and decision-making in traffic scenarios. They find that the pretrain-finetune paradigm of LLMs on downstream data with the Chain-of-Thought (CoT) reasoning process can enhance explainability and scene understanding. However, such a popular strategy proves to suffer from the notorious problems of misalignment between the crafted CoTs against the consequent decision-making, which remains untouched by previous LLM-based AD methods. To address this problem, we motivate an end-to-end decision-making model based on multimodality-augmented LLM, which simultaneously executes CoT reasoning and carries out planning results. Furthermore, we propose a reasoning-decision alignment constraint between the paired CoTs and planning results, imposing the correspondence between reasoning and decision-making. Moreover, we redesign the CoTs to enable the model to comprehend complex scenarios and enhance decision-making performance. We dub our proposed large language planners with reasoning-decision alignment as RDA-Driver. Experimental evaluations on the nuScenes and DriveLM-nuScenes benchmarks demonstrate the effectiveness of our RDA-Driver in enhancing the performance of end-to-end AD systems. Specifically, our RDA-Driver achieves state-of-the-art planning performance on the nuScenes dataset with 0.80 L2 error and 0.32 collision rate, and also achieves leading results on challenging DriveLM-nuScenes benchmarks with 0.82 L2 error and 0.38 collision rate.

Making Large Language Models Better Planners with Reasoning-Decision Alignment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理