DRAMA: An Efficient End-to-end Motion Planner for Autonomous Driving with Mamba
作者: Chengran Yuan, Zhanqi Zhang, Jiawei Sun, Shuo Sun, Zefan Huang, Christina Dao Wen Lee, Dongen Li, Yuhang Han, Anthony Wong, Keng Peng Tee, Marcelo H. Ang
分类: cs.RO
发布日期: 2024-08-07 (更新: 2024-08-14)
💡 一句话要点
DRAMA:一种基于Mamba的高效端到端自动驾驶运动规划器
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自动驾驶 运动规划 Mamba 多模态融合 端到端学习 Transformer 深度学习
📋 核心要点
- 现有基于Transformer的运动规划方法在处理长序列时面临计算复杂度高的挑战,限制了其在复杂场景中的应用。
- DRAMA利用Mamba架构的线性复杂度优势,设计了Mamba融合模块和Mamba-Transformer解码器,以提升效率和性能。
- 实验表明,DRAMA在精度上优于Transfuser,同时减少了参数量和计算成本,验证了其有效性。
📝 摘要(中文)
本文提出DRAMA,一种基于Mamba的端到端自动驾驶运动规划器。DRAMA在特征空间中融合了摄像头和激光雷达的鸟瞰图图像,以及车辆自身状态信息,生成一系列未来轨迹。与传统的基于Transformer的方法相比,DRAMA具有较低的计算复杂度,能够处理日益复杂的场景。DRAMA利用Mamba融合模块高效地融合摄像头和激光雷达模态的特征。此外,我们引入了一个Mamba-Transformer解码器,增强了整体规划性能,该模块可普遍适用于任何基于Transformer的模型,特别是对于具有长序列输入的任务。我们还引入了一种新的特征状态Dropout,提高了规划器的鲁棒性,而无需增加训练和推理时间。实验结果表明,与基线Transfuser相比,DRAMA在NAVSIM数据集上实现了更高的精度,同时参数更少,计算成本更低。
🔬 方法详解
问题定义:自动驾驶运动规划旨在复杂动态环境中生成安全可行的车辆轨迹。现有基于Transformer的方法在处理长序列输入时,注意力机制的计算复杂度呈平方增长,导致计算成本高昂,难以应对日益复杂的交通场景。
核心思路:DRAMA的核心思路是利用Mamba架构的线性复杂度特性,替代Transformer中的注意力机制,从而降低计算成本,提高规划效率。同时,通过设计特定的融合模块和解码器,充分利用多模态信息,提升规划精度和鲁棒性。
技术框架:DRAMA的整体架构包括:1) 特征提取模块,从摄像头和激光雷达数据中提取特征;2) Mamba融合模块,融合多模态特征;3) Mamba-Transformer解码器,生成未来轨迹序列。此外,还引入了特征状态Dropout来增强模型的鲁棒性。
关键创新:DRAMA的关键创新在于:1) 首次将Mamba架构应用于端到端自动驾驶运动规划;2) 设计了Mamba融合模块,高效融合多模态特征;3) 提出了Mamba-Transformer解码器,提升了规划性能。与传统Transformer方法相比,DRAMA在计算复杂度上具有显著优势。
关键设计:Mamba融合模块的具体结构未知,但其目的是有效融合摄像头和激光雷达的特征。Mamba-Transformer解码器可能包含Mamba层和Transformer层,具体结构未知。特征状态Dropout的具体实现方式未知,但其目的是在训练过程中随机丢弃部分特征,以提高模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DRAMA在NAVSIM数据集上相比Transfuser取得了更高的精度,同时减少了参数量和计算成本。具体性能提升数据未知,但总体而言,DRAMA在效率和精度上都优于基线方法,证明了Mamba架构在自动驾驶运动规划中的潜力。
🎯 应用场景
DRAMA可应用于各种自动驾驶场景,例如城市道路、高速公路和停车场等。其高效的计算性能使其能够实时处理复杂的交通状况,为自动驾驶车辆提供安全可靠的运动规划能力。该研究成果有助于推动自动驾驶技术的商业化落地,并提升交通运输的效率和安全性。
📄 摘要(原文)
Motion planning is a challenging task to generate safe and feasible trajectories in highly dynamic and complex environments, forming a core capability for autonomous vehicles. In this paper, we propose DRAMA, the first Mamba-based end-to-end motion planner for autonomous vehicles. DRAMA fuses camera, LiDAR Bird's Eye View images in the feature space, as well as ego status information, to generate a series of future ego trajectories. Unlike traditional transformer-based methods with quadratic attention complexity for sequence length, DRAMA is able to achieve a less computationally intensive attention complexity, demonstrating potential to deal with increasingly complex scenarios. Leveraging our Mamba fusion module, DRAMA efficiently and effectively fuses the features of the camera and LiDAR modalities. In addition, we introduce a Mamba-Transformer decoder that enhances the overall planning performance. This module is universally adaptable to any Transformer-based model, especially for tasks with long sequence inputs. We further introduce a novel feature state dropout which improves the planner's robustness without increasing training and inference times. Extensive experimental results show that DRAMA achieves higher accuracy on the NAVSIM dataset compared to the baseline Transfuser, with fewer parameters and lower computational costs.