Enhancing Autonomous Driving Systems with On-Board Deployed Large Language Models

📄 arXiv: 2504.11514v1 📥 PDF

作者: Nicolas Baumann, Cheng Hu, Paviththiren Sivasothilingam, Haotong Qin, Lei Xie, Michele Magno, Luca Benini

分类: cs.AI, cs.RO

发布日期: 2025-04-15


💡 一句话要点

提出基于本地部署大语言模型的自动驾驶系统,提升决策与控制能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 大语言模型 模型预测控制 本地部署 检索增强生成 低秩适应 量化 人机交互

📋 核心要点

  1. 现有自动驾驶系统难以处理现实驾驶中的极端情况,因为无法构建覆盖所有情况的详尽数据集。
  2. 论文提出将本地部署的大语言模型与模型预测控制相结合,利用语言模型的知识推理能力提升决策和控制。
  3. 实验表明,该方法显著提高了推理准确性、控制适应性以及计算效率,验证了其在实时部署中的可行性。

📝 摘要(中文)

本文提出了一种混合架构,将低级模型预测控制器(MPC)与本地部署的大型语言模型(LLM)相结合,以增强决策制定和人机交互(HMI)。DecisionxLLM模块根据自然语言指令评估机器人状态信息,确保符合期望的驾驶行为。然后,MPCxLLM模块基于LLM生成的见解调整MPC参数,实现控制适应性,同时保留传统MPC系统的安全性和约束保证。为了实现高效的板载部署并消除对云连接的依赖,我们将处理转移到板载计算平台:我们提出了一种利用检索增强生成(RAG)、低秩适应(LoRA)微调和量化的方法。实验结果表明,这些增强功能显著提高了推理准确性(高达10.45%),控制适应性(高达52.2%),并提高了计算效率(高达10.5倍tokens/s),验证了所提出的框架在实时部署中的实用性,即使在小型机器人平台上也是如此。这项工作将高级决策与低级控制适应性联系起来,为知识驱动和自适应自动驾驶系统(ADS)提供了一个协同框架。

🔬 方法详解

问题定义:自动驾驶系统在面对真实世界中复杂多变的场景时,由于数据驱动的神经网络难以覆盖所有极端情况,导致决策和控制性能下降。现有方法难以兼顾安全约束和自适应能力,并且依赖云端计算,存在延迟和隐私问题。

核心思路:利用大型语言模型(LLM)的知识推理能力,结合模型预测控制(MPC)的精确控制能力,构建一个混合架构。通过LLM理解驾驶指令和场景信息,并指导MPC进行参数调整,从而实现安全、自适应的自动驾驶。将LLM部署在本地,避免了对云端连接的依赖。

技术框架:该框架包含两个主要模块:DecisionxLLM和MPCxLLM。DecisionxLLM模块负责评估机器人状态信息与自然语言指令的符合程度,确保驾驶行为符合预期。MPCxLLM模块则根据LLM生成的见解,动态调整MPC的参数,以实现控制的自适应性。为了在资源受限的嵌入式平台上部署LLM,采用了检索增强生成(RAG)、低秩适应(LoRA)微调和量化等技术。

关键创新:该方法的核心创新在于将大型语言模型与模型预测控制相结合,实现知识驱动的自适应自动驾驶。通过本地部署LLM,解决了云端依赖问题,提高了系统的实时性和隐私性。此外,利用RAG、LoRA和量化等技术,实现了LLM在嵌入式平台上的高效部署。

关键设计:在DecisionxLLM模块中,LLM接收机器人状态信息和自然语言指令作为输入,输出一个置信度评分,表示当前状态是否符合指令。MPCxLLM模块利用LLM生成的见解,调整MPC的权重参数,例如调整对不同状态变量的惩罚力度。RAG用于从知识库中检索相关信息,LoRA用于高效地微调LLM,量化用于降低LLM的计算和存储需求。具体的参数设置和网络结构细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,该方法在推理准确性方面提升了高达10.45%,控制适应性方面提升了高达52.2%,计算效率方面提升了高达10.5倍(tokens/s)。这些结果验证了所提出的框架在实时部署中的实用性,即使在资源受限的机器人平台上也能有效运行。

🎯 应用场景

该研究成果可应用于各种自动驾驶场景,例如城市道路自动驾驶、高速公路自动驾驶和无人配送等。通过提升自动驾驶系统的决策和控制能力,可以提高驾驶安全性、舒适性和效率。此外,本地部署的LLM还可以提供个性化的驾驶体验和人机交互功能,例如语音控制和智能导航。

📄 摘要(原文)

Neural Networks (NNs) trained through supervised learning struggle with managing edge-case scenarios common in real-world driving due to the intractability of exhaustive datasets covering all edge-cases, making knowledge-driven approaches, akin to how humans intuitively detect unexpected driving behavior, a suitable complement to data-driven methods. This work proposes a hybrid architecture combining low-level Model Predictive Controller (MPC) with locally deployed Large Language Models (LLMs) to enhance decision-making and Human Machine Interaction (HMI). The DecisionxLLM module evaluates robotic state information against natural language instructions to ensure adherence to desired driving behavior. The MPCxLLM module then adjusts MPC parameters based on LLM-generated insights, achieving control adaptability while preserving the safety and constraint guarantees of traditional MPC systems. Further, to enable efficient on-board deployment and to eliminate dependency on cloud connectivity, we shift processing to the on-board computing platform: We propose an approach that exploits Retrieval Augmented Generation (RAG), Low Rank Adaptation (LoRA) fine-tuning, and quantization. Experimental results demonstrate that these enhancements yield significant improvements in reasoning accuracy by up to 10.45%, control adaptability by as much as 52.2%, and up to 10.5x increase in computational efficiency (tokens/s), validating the proposed framework's practicality for real-time deployment even on down-scaled robotic platforms. This work bridges high-level decision-making with low-level control adaptability, offering a synergistic framework for knowledge-driven and adaptive Autonomous Driving Systems (ADS).