CALMM-Drive: Confidence-Aware Autonomous Driving with Large Multimodal Model
作者: Ruoyu Yao, Yubin Wang, Haichao Liu, Rui Yang, Zengqi Peng, Lei Zhu, Jun Ma
分类: cs.RO
发布日期: 2024-12-05 (更新: 2025-03-31)
备注: 14 pages, 7 figures
💡 一句话要点
CALMM-Drive:基于置信度感知的大型多模态模型实现自动驾驶决策与规划
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 大型多模态模型 置信度感知 思维链 轨迹规划 扩散模型 决策规划
📋 核心要点
- 现有决策规划方法存在决策与规划不一致的问题,导致危险情况;生成-评分方法难以平衡短期操作指标和长期战术目标,导致短视或保守行为。
- CALMM-Drive通过结合驾驶任务导向的CoT推理和Top-K置信度提取,生成多个带置信度的候选决策,并利用扩散模型和分层细化进行轨迹规划。
- 在nuPlan闭环仿真环境中,CALMM-Drive在常见和长尾基准测试中表现出竞争优势,表明其在LMM驱动的自动驾驶车辆中不确定性集成的有效性。
📝 摘要(中文)
本文提出了一种名为CALMM-Drive的置信度感知的大型多模态模型(LMM)驱动的自动驾驶框架,旨在解决自动驾驶车辆决策和运动规划中的问题。该方法结合了面向驾驶任务的思维链(CoT)推理和Top-K置信度提取,从而进行高层次推理,生成多个具有置信度级别的候选决策。此外,还提出了一个新的规划模块,该模块集成了用于轨迹生成的扩散模型和用于寻找最优轨迹的分层细化过程。该框架能够根据低层次的解决方案质量和高层次的策略置信度来选择轨迹候选,从而避免了单次决策中的风险,并克服了短视评分机制的局限性。在nuPlan闭环仿真环境中的综合评估表明,CALMM-Drive在常见和长尾基准测试中都表现出竞争优势,展示了LMM驱动的自动驾驶车辆中不确定性集成的显著进步。
🔬 方法详解
问题定义:自动驾驶车辆的决策和运动规划是保证安全和效率的关键。现有方法主要分为“决策然后规划”和“生成然后评分”两种范式。“决策然后规划”容易出现决策与规划不一致的问题,导致危险情况。“生成然后评分”难以平衡短期操作指标(如运动平滑性)与长期战术目标(如路线效率),导致短视或过于保守的行为。
核心思路:CALMM-Drive的核心思路是利用大型多模态模型(LMM)进行高层次的推理和决策,并结合置信度评估来指导轨迹规划。通过生成多个候选决策并评估其置信度,可以避免单次决策的风险,并克服短视评分机制的局限性。
技术框架:CALMM-Drive框架主要包含两个模块:决策模块和规划模块。决策模块利用驾驶任务导向的思维链(CoT)推理和Top-K置信度提取,生成多个候选决策及其置信度。规划模块集成了扩散模型用于轨迹生成,并采用分层细化过程来寻找最优轨迹。整体流程是:首先,决策模块根据环境信息生成多个候选决策;然后,规划模块为每个候选决策生成相应的轨迹;最后,根据轨迹的质量和决策的置信度,选择最优的轨迹。
关键创新:CALMM-Drive的关键创新在于将置信度感知融入到LMM驱动的自动驾驶框架中。通过CoT推理和Top-K置信度提取,可以获得对不同决策的置信度评估,从而在轨迹选择时综合考虑低层次的解决方案质量和高层次的策略置信度。这与现有方法只关注单一决策或短视评分机制有本质区别。
关键设计:在决策模块中,CoT推理过程的设计需要根据具体的驾驶任务进行调整,以保证推理的有效性。Top-K置信度提取需要选择合适的K值,以平衡计算复杂度和决策的多样性。在规划模块中,扩散模型的训练需要大量的数据,并且需要设计合适的损失函数来保证轨迹的质量。分层细化过程需要选择合适的细化策略,以在计算效率和轨迹优化之间取得平衡。
🖼️ 关键图片
📊 实验亮点
CALMM-Drive在nuPlan闭环仿真环境中进行了全面的评估,结果表明其在常见和长尾基准测试中都表现出竞争优势。具体而言,CALMM-Drive在安全性、效率和舒适性等指标上均优于现有方法,尤其是在处理长尾场景时表现出更强的鲁棒性。这些结果表明CALMM-Drive在LMM驱动的自动驾驶车辆中不确定性集成方面取得了显著的进步。
🎯 应用场景
CALMM-Drive具有广泛的应用前景,可用于各种自动驾驶场景,包括城市道路、高速公路和越野环境。该研究的实际价值在于提高了自动驾驶车辆的安全性、效率和可靠性,并为未来自动驾驶技术的发展提供了新的思路。此外,该方法还可以应用于其他需要进行复杂决策和规划的机器人系统。
📄 摘要(原文)
Decision-making and motion planning constitute critical components for ensuring the safety and efficiency of autonomous vehicles (AVs). Existing methodologies typically adopt two paradigms: decision then planning or generation then scoring. However, the former architecture often suffers from decision-planning misalignment that incurs risky situations. Meanwhile, the latter struggles to balance short-term operational metrics (e.g., immediate motion smoothness) with long-term tactical goals (e.g., route efficiency), resulting in myopic or overly conservative behaviors. To address these issues, we introduce CALMM-Drive, a novel Confidence-Aware Large Multimodal Model (LMM) empowered Autonomous Driving framework. Our approach integrates driving task-oriented Chain-of-Thought (CoT) reasoning coupled with Top-K confidence elicitation, which facilitates high-level reasoning to generate multiple candidate decisions with their confidence levels. Furthermore, we propose a novel planning module that integrates a diffusion model for trajectory generation and a hierarchical refinement process to find the optimal trajectory. This framework enables the selection over trajectory candidates accounting for both low-level solution quality and high-level tactical confidence, which avoids the risks within one-shot decisions and overcomes the limitations in short-sighted scoring mechanisms. Comprehensive evaluations in nuPlan closed-loop simulation environments demonstrate the competitive performance of CALMM-Drive across both common and long-tail benchmarks, showcasing a significant advancement in the integration of uncertainty in LMM-empowered AVs. The code will be released upon acceptance.