DSDrive: Distilling Large Language Model for Lightweight End-to-End Autonomous Driving with Unified Reasoning and Planning

📄 arXiv: 2505.05360v1 📥 PDF

作者: Wenru Liu, Pei Liu, Jun Ma

分类: cs.RO

发布日期: 2025-05-08


💡 一句话要点

DSDrive:提出一种轻量级端到端自动驾驶框架,融合推理与规划。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 端到端学习 知识蒸馏 视觉语言模型 轻量级模型 推理与规划 双头网络

📋 核心要点

  1. 现有端到端自动驾驶模型通常计算成本高昂,难以在资源受限的平台上部署,且缺乏足够的推理能力。
  2. DSDrive 通过知识蒸馏将大型视觉语言模型的推理能力迁移到小型LLM,并使用双头协调模块对齐推理和规划任务。
  3. 实验表明,DSDrive 在保持甚至超越基准模型性能的同时,显著降低了计算成本,提升了模型的可解释性。

📝 摘要(中文)

DSDrive 是一种精简的端到端范式,旨在将自动驾驶车辆的推理和规划整合到一个统一的框架中。DSDrive 利用一个紧凑的 LLM,该 LLM 采用蒸馏方法来保留更大尺寸的视觉语言模型 (VLM) 的增强推理能力。为了有效地对齐推理和规划任务,进一步开发了一个航点驱动的双头协调模块,该模块同步数据集结构、优化目标和学习过程。通过将这些任务集成到一个统一的框架中,DSDrive 在结合详细的推理见解的同时,锚定规划结果,从而增强了端到端管道的可解释性和可靠性。DSDrive 已经在闭环模拟中进行了全面测试,在闭环模拟中,它的性能与基准模型相当,甚至在许多关键指标上都优于基准模型,同时尺寸更小。此外,DSDrive 的计算效率(如其在推理期间的时间和内存需求所反映的那样)已得到显着提高。因此,这项工作带来了有希望的方面,并强调了轻量级系统在为 AD 提供可解释和高效的解决方案方面的潜力。

🔬 方法详解

问题定义:现有端到端自动驾驶方法通常依赖于大型模型,计算量大,难以部署在资源受限的边缘设备上。此外,这些模型的可解释性较差,难以理解其决策过程,从而影响了安全性。因此,需要一种轻量级、高效且可解释的端到端自动驾驶框架。

核心思路:DSDrive 的核心思路是利用知识蒸馏技术,将大型视觉语言模型(VLM)的推理能力迁移到小型语言模型(LLM)中,从而在保持推理能力的同时,显著降低模型的计算复杂度。此外,通过设计航点驱动的双头协调模块,将推理和规划任务对齐,提高模型的可解释性和可靠性。

技术框架:DSDrive 采用端到端架构,主要包含三个模块:视觉感知模块(提取图像特征)、轻量级LLM推理模块(进行场景理解和决策)和航点驱动的双头规划模块(生成车辆行驶轨迹)。视觉感知模块负责从摄像头图像中提取特征;轻量级LLM推理模块利用蒸馏后的知识进行场景理解和推理,输出驾驶决策;航点驱动的双头规划模块根据推理结果和当前车辆状态,生成一系列航点,控制车辆行驶。

关键创新:DSDrive 的关键创新在于:1) 采用知识蒸馏技术,将大型VLM的推理能力迁移到小型LLM,实现了模型轻量化;2) 提出航点驱动的双头协调模块,将推理和规划任务对齐,提高了模型的可解释性和可靠性;3) 将推理和规划整合到一个统一的端到端框架中,简化了模型结构,提高了效率。

关键设计:航点驱动的双头协调模块是关键设计之一。该模块包含两个头部:一个负责预测航点,另一个负责提供驾驶指令。数据集结构、优化目标和学习过程都进行了同步,以确保两个头部能够协同工作。损失函数的设计也至关重要,需要平衡推理和规划的准确性。此外,轻量级LLM的网络结构和蒸馏策略也需要精心设计,以保证模型在保持推理能力的同时,尽可能地减小尺寸。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DSDrive 在闭环模拟实验中表现出色,在保持与基准模型相当的性能的同时,显著降低了计算成本。在某些关键指标上,DSDrive 甚至优于基准模型。实验结果表明,DSDrive 是一种高效、轻量级且可解释的自动驾驶解决方案。

🎯 应用场景

DSDrive 有潜力应用于各种自动驾驶场景,尤其是在计算资源受限的场景中,例如低成本自动驾驶车辆、无人配送车等。该研究成果有助于推动自动驾驶技术的普及和应用,并为开发更安全、更可靠的自动驾驶系统提供新的思路。

📄 摘要(原文)

We present DSDrive, a streamlined end-to-end paradigm tailored for integrating the reasoning and planning of autonomous vehicles into a unified framework. DSDrive leverages a compact LLM that employs a distillation method to preserve the enhanced reasoning capabilities of a larger-sized vision language model (VLM). To effectively align the reasoning and planning tasks, a waypoint-driven dual-head coordination module is further developed, which synchronizes dataset structures, optimization objectives, and the learning process. By integrating these tasks into a unified framework, DSDrive anchors on the planning results while incorporating detailed reasoning insights, thereby enhancing the interpretability and reliability of the end-to-end pipeline. DSDrive has been thoroughly tested in closed-loop simulations, where it performs on par with benchmark models and even outperforms in many key metrics, all while being more compact in size. Additionally, the computational efficiency of DSDrive (as reflected in its time and memory requirements during inference) has been significantly enhanced. Evidently thus, this work brings promising aspects and underscores the potential of lightweight systems in delivering interpretable and efficient solutions for AD.