Prompting Multi-Modal Tokens to Enhance End-to-End Autonomous Driving Imitation Learning with LLMs

📄 arXiv: 2404.04869v2 📥 PDF

作者: Yiqun Duan, Qiang Zhang, Renjing Xu

分类: cs.RO, cs.AI

发布日期: 2024-04-07 (更新: 2024-07-29)

期刊: Published as oral presentation paper atthe 2024 IEEE International Conference on Robotics and Automation (ICRA2024), Yokohama, Japan


💡 一句话要点

提出多模态令牌以增强端到端自主驾驶模仿学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 自主驾驶 模仿学习 大型语言模型 强化学习

📋 核心要点

  1. 现有方法主要依赖于将感知结果转化为语言输入,导致描述偏差和信息损失。
  2. 本文提出通过多模态提示令牌将视觉和激光雷达输入整合,形成混合的端到端学习框架。
  3. 实验结果显示,该方法在CARLA环境中实现了49.21%的驾驶得分和91.34%的路线完成率,表现优异。

📝 摘要(中文)

在强化学习领域,特别是作为规划者的大型语言模型(LLMs)的应用引起了广泛关注。然而,现有研究大多集中于将感知模型输出转化为语言形式的纯语言策略。本文提出了一种混合的端到端学习框架,通过结合基本的驾驶模仿学习与基于多模态提示令牌的LLMs,解决了这一问题。我们的创新在于:1)将视觉和激光雷达传感器输入整合为可学习的多模态令牌,从根本上减轻了由分离的预训练感知模型造成的描述偏差;2)探索让LLMs帮助驾驶模型纠正错误和处理复杂场景的混合设置。实验结果表明,该方法在CARLA的离线评估中取得了49.21%的驾驶得分和91.34%的路线完成率,性能与最先进的驾驶模型相当。

🔬 方法详解

问题定义:本文旨在解决现有自主驾驶模仿学习中对感知结果的语言转化所带来的描述偏差和信息损失问题。现有方法往往依赖于分离的感知模型,导致信息整合不充分。

核心思路:论文提出了一种混合的端到端学习框架,通过多模态提示令牌将视觉和激光雷达输入整合,旨在提高信息的利用效率和准确性。通过让LLMs辅助驾驶模型纠正错误,增强了模型在复杂场景下的表现。

技术框架:整体架构包括感知模块、令牌生成模块和驾驶决策模块。感知模块负责获取视觉和激光雷达数据,令牌生成模块将这些数据转化为多模态令牌,最后驾驶决策模块利用LLMs进行决策和控制。

关键创新:最重要的创新在于将多模态输入整合为可学习的令牌,避免了传统方法中信息的丢失和偏差。此外,LLMs的辅助作用使得模型在复杂场景下的表现更为稳健。

关键设计:在参数设置上,采用了适应性学习率和多模态融合策略。损失函数设计上,结合了模仿学习损失和决策纠正损失,以确保模型在训练过程中的稳定性和有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,所提出的方法在CARLA环境中实现了49.21%的驾驶得分和91.34%的路线完成率,表现与最先进的驾驶模型相当,显示出显著的性能提升,验证了多模态令牌的有效性。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶汽车、智能交通系统和机器人导航等。通过提升自主驾驶的决策能力和适应性,能够在复杂环境中实现更安全和高效的驾驶体验,具有重要的实际价值和未来影响。

📄 摘要(原文)

The utilization of Large Language Models (LLMs) within the realm of reinforcement learning, particularly as planners, has garnered a significant degree of attention in recent scholarly literature. However, a substantial proportion of existing research predominantly focuses on planning models for robotics that transmute the outputs derived from perception models into linguistic forms, thus adopting a `pure-language' strategy. In this research, we propose a hybrid End-to-End learning framework for autonomous driving by combining basic driving imitation learning with LLMs based on multi-modality prompt tokens. Instead of simply converting perception results from the separated train model into pure language input, our novelty lies in two aspects. 1) The end-to-end integration of visual and LiDAR sensory input into learnable multi-modality tokens, thereby intrinsically alleviating description bias by separated pre-trained perception models. 2) Instead of directly letting LLMs drive, this paper explores a hybrid setting of letting LLMs help the driving model correct mistakes and complicated scenarios. The results of our experiments suggest that the proposed methodology can attain driving scores of 49.21%, coupled with an impressive route completion rate of 91.34% in the offline evaluation conducted via CARLA. These performance metrics are comparable to the most advanced driving models.