Generalizing End-To-End Autonomous Driving In Real-World Environments Using Zero-Shot LLMs

📄 arXiv: 2411.14256v1 📥 PDF

作者: Zeyu Dong, Yimin Zhu, Yansong Li, Kevin Mahon, Yu Sun

分类: cs.RO

发布日期: 2024-11-21


💡 一句话要点

提出一种基于零样本LLM的端到端自动驾驶框架,提升真实环境泛化能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 端到端自动驾驶 大型语言模型 零样本学习 泛化能力 模仿学习

📋 核心要点

  1. 端到端自动驾驶模型泛化性差,需要大量数据训练,而真实场景数据收集成本高昂。
  2. 利用LLM生成高级驾驶指令,指导端到端模型,降低对训练数据的依赖,提升泛化能力。
  3. 实验表明,即使仅使用少量简单场景数据训练,该架构也能在复杂真实环境中有效驾驶。

📝 摘要(中文)

传统的自动驾驶方法采用模块化设计,将任务分解为子任务。相比之下,端到端自动驾驶直接从原始传感器数据输出动作,避免了误差累积。然而,训练端到端模型需要全面的数据集;否则,模型会表现出较差的泛化能力。最近,大型语言模型(LLM)已被应用于增强端到端驾驶模型的泛化能力。大多数研究以开环方式探索LLM,其中输出动作与专家的动作进行比较,而没有来自真实世界的直接反馈,而另一些研究仅在模拟中检查闭环结果。本文提出了一种高效的架构,将多模态LLM集成到在真实环境中以闭环方式运行的端到端驾驶模型中。在我们的架构中,LLM定期处理原始传感器数据以生成高级驾驶指令,有效地指导端到端模型,即使速率低于原始传感器数据。这种架构放宽了LLM的延迟和推理质量之间的权衡。它还允许我们选择各种LLM来改进高级驾驶指令并最大限度地降低微调成本。因此,我们的架构降低了数据收集要求,因为LLM不直接输出动作;我们只需要训练一个简单的模仿学习模型来输出动作。在我们的实验中,真实环境中端到端模型的训练数据仅包含具有一个交通锥的简单障碍物配置,而测试环境更复杂,包含放置在各种位置的多个障碍物。实验表明,即使不微调LLM,所提出的架构也能增强端到端模型的泛化能力。

🔬 方法详解

问题定义:端到端自动驾驶模型在真实世界环境中泛化能力不足,需要大量且多样化的训练数据。现有方法要么依赖于昂贵的真实数据收集,要么在模拟环境中进行训练,导致模型难以适应真实世界的复杂性和变化性。此外,直接使用LLM控制车辆需要高推理速度,对算力要求高。

核心思路:利用LLM的强大语义理解和推理能力,生成高级驾驶指令,例如“向左转弯”、“避开障碍物”等。这些指令作为端到端模型的指导信号,帮助模型更好地理解场景并做出决策。通过这种方式,降低了端到端模型对大量训练数据的依赖,提高了其泛化能力。同时,LLM不需要直接输出控制指令,降低了对推理速度的要求。

技术框架:该架构包含两个主要模块:LLM模块和端到端控制模块。LLM模块定期接收原始传感器数据(例如图像、激光雷达点云),并生成高级驾驶指令。这些指令被传递给端到端控制模块,该模块根据指令和传感器数据输出车辆的控制动作(例如转向角、油门)。端到端控制模块使用模仿学习进行训练,模仿专家驾驶员的行为。整个系统以闭环方式运行,车辆的动作会影响环境,从而影响后续的传感器数据和LLM的指令。

关键创新:该方法的核心创新在于将LLM作为高级指导信号集成到端到端自动驾驶系统中。与直接使用LLM控制车辆或仅在开环环境中评估LLM不同,该方法利用LLM的语义理解能力来指导端到端模型的学习,从而提高了模型的泛化能力,并降低了对大量训练数据的需求。此外,该架构允许使用各种LLM,而无需进行微调。

关键设计:LLM的输入包括原始传感器数据(例如图像)和历史驾驶信息。LLM的输出是高级驾驶指令,例如“保持车道”、“避开障碍物”等。端到端控制模块是一个简单的神经网络,输入包括传感器数据和LLM的指令,输出是车辆的控制动作。损失函数采用模仿学习常用的均方误差损失,用于衡量模型输出的控制动作与专家驾驶员的控制动作之间的差异。训练数据主要包含简单场景,例如单个交通锥。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使仅使用包含单个交通锥的简单场景数据进行训练,该架构也能在包含多个障碍物的复杂环境中实现有效的自动驾驶。该方法在不微调LLM的情况下,显著提高了端到端模型的泛化能力,降低了数据收集成本。

🎯 应用场景

该研究成果可应用于各种自动驾驶场景,尤其是在数据收集成本高昂或难以获取多样化数据的场景中,例如低速无人驾驶车辆、特定区域的自动驾驶巴士等。该方法还可以扩展到其他机器人领域,例如家庭服务机器人、工业机器人等,提高机器人在复杂环境中的适应性和鲁棒性。

📄 摘要(原文)

Traditional autonomous driving methods adopt a modular design, decomposing tasks into sub-tasks. In contrast, end-to-end autonomous driving directly outputs actions from raw sensor data, avoiding error accumulation. However, training an end-to-end model requires a comprehensive dataset; otherwise, the model exhibits poor generalization capabilities. Recently, large language models (LLMs) have been applied to enhance the generalization capabilities of end-to-end driving models. Most studies explore LLMs in an open-loop manner, where the output actions are compared to those of experts without direct feedback from the real world, while others examine closed-loop results only in simulations. This paper proposes an efficient architecture that integrates multimodal LLMs into end-to-end driving models operating in closed-loop settings in real-world environments. In our architecture, the LLM periodically processes raw sensor data to generate high-level driving instructions, effectively guiding the end-to-end model, even at a slower rate than the raw sensor data. This architecture relaxes the trade-off between the latency and inference quality of the LLM. It also allows us to choose from a wide variety of LLMs to improve high-level driving instructions and minimize fine-tuning costs. Consequently, our architecture reduces data collection requirements because the LLMs do not directly output actions; we only need to train a simple imitation learning model to output actions. In our experiments, the training data for the end-to-end model in a real-world environment consists of only simple obstacle configurations with one traffic cone, while the test environment is more complex and contains multiple obstacles placed in various positions. Experiments show that the proposed architecture enhances the generalization capabilities of the end-to-end model even without fine-tuning the LLM.