Decision-Making with Lightweight Confidence-Aware Language Model for Autonomous Driving

📄 arXiv: 2605.25393v1 📥 PDF

作者: Ruoyu Yao, Ruiguo Zhong, Pei Liu, Mingxing Peng, Rui Yang, Jun Ma

分类: cs.RO

发布日期: 2026-05-25

备注: 8 Pages, 3 figures, ITSC 2026


💡 一句话要点

提出轻量级置信度感知语言模型,用于自动驾驶决策

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 决策模型 轻量级模型 知识蒸馏 置信度感知 多智能体协作 检索增强生成

📋 核心要点

  1. 现有大型语言模型在自动驾驶决策中计算开销大、推理延迟高,难以部署在资源受限的系统中。
  2. 论文提出一种轻量级置信度感知语言模型,通过多智能体协作和知识蒸馏实现高效决策。
  3. 在nuPlan基准测试中,该方法在保证低延迟的同时,显著提升了自动驾驶决策的成功率。

📝 摘要(中文)

大型语言模型(LLMs)和多模态LLMs(MLLMs)在自动驾驶(AD)中展现出巨大潜力,能够提供类人的推理和开放世界的泛化能力。然而,这些大型模型过高的计算开销和推理延迟严重阻碍了它们在资源受限的AD系统中的部署。为了解决这一挑战,我们提出了一种新颖的决策框架,该框架利用轻量级的置信度感知语言模型,弥合了复杂的多模态意图推理和高效推理之间的差距。具体而言,我们设计了一个多智能体协作工作流程,包括行动投票、置信度评估和总结智能体,通过显式的思维链(CoT)推理生成高质量、置信度注释的决策演示。然后,这些演示被提炼成具有双头架构的轻量级语言模型,从而能够联合预测决策概率和生成文本解释。通过置信度感知微调策略以及检索增强生成(RAG)来实现蒸馏,以增强模型的适应性和数据效率。在nuPlan基准上的全面闭环实验表明,我们的方法在常规和长尾场景中都实现了最先进(SOTA)的成功率,同时保持了较低的推理延迟。

🔬 方法详解

问题定义:自动驾驶系统需要快速且准确地做出决策,但现有的大型语言模型计算量大,推理速度慢,难以满足实时性要求。如何在资源受限的平台上部署高性能的决策模型是一个关键问题。

核心思路:利用知识蒸馏技术,将大型模型的知识迁移到轻量级模型中,同时引入置信度评估机制,使模型能够感知自身决策的可靠性,从而提高决策的准确性和鲁棒性。通过多智能体协作生成高质量的训练数据,并使用检索增强生成(RAG)来提升模型的泛化能力。

技术框架:该框架包含三个主要模块:多智能体协作模块、知识蒸馏模块和推理模块。多智能体协作模块负责生成带有置信度注释的决策演示数据。知识蒸馏模块将这些数据用于训练轻量级语言模型。推理模块利用训练好的轻量级模型进行实时决策。

关键创新:该方法的核心创新在于:1) 提出了置信度感知的语言模型,能够同时预测决策概率和生成文本解释;2) 设计了多智能体协作工作流程,用于生成高质量的训练数据;3) 采用了置信度感知微调策略和检索增强生成(RAG)技术,提高了模型的适应性和数据效率。

关键设计:该模型采用双头架构,一个头用于预测决策概率,另一个头用于生成文本解释。损失函数包括决策概率预测的交叉熵损失和文本解释生成的语言模型损失。置信度感知微调策略通过调整损失函数的权重,使模型更加关注置信度高的样本。检索增强生成(RAG)通过从外部知识库中检索相关信息,增强模型的上下文理解能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在nuPlan基准测试中,该方法在常规和长尾场景中均取得了最先进的成功率,同时保持了较低的推理延迟。实验结果表明,该方法能够有效地平衡决策性能和计算开销,为自动驾驶系统的部署提供了可行的解决方案。

🎯 应用场景

该研究成果可应用于各种自动驾驶场景,尤其是在计算资源受限的嵌入式平台上。通过部署轻量级且高性能的决策模型,可以提高自动驾驶系统的安全性和可靠性,加速自动驾驶技术的商业化落地。此外,该方法也可推广到其他需要实时决策的机器人应用中。

📄 摘要(原文)

Large Language Models (LLMs) and Multimodal LLMs (MLLMs) have demonstrated immense potential in autonomous driving (AD) by offering human-like reasoning and open-world generalization. However, the excessive computational overhead and high inference latency of these massive models severely hinder their deployment in resource-constrained AD systems. To address this challenge, we propose a novel decision-making framework utilizing a lightweight confidence-aware language model, which bridges the gap between complex multimodal intention reasoning and efficient inference. Specifically, we design a multi-agent collaborative workflow, comprising action voting, confidence assessment, and summarization agents, to generate high-quality, confidence-annotated decision demonstrations via explicit Chain-of-Thought (CoT) reasoning. These demonstrations are then distilled into a lightweight language model featuring a dual-head architecture, enabling the joint prediction of decision probabilities and the generation of textual rationales. The distillation is realized via a confidence-aware fine-tuning strategy coupled with Retrieval Augmented Generation (RAG) to enhance the model's adaptability and data efficiency. Comprehensive closed-loop experiments on the nuPlan benchmark demonstrate that our approach achieves state-of-the-art (SOTA) success rates in both regular and long-tail scenarios while maintaining low inference latency.