Hierarchical End-to-End Autonomous Driving: Integrating BEV Perception with Deep Reinforcement Learning

📄 arXiv: 2409.17659v1 📥 PDF

作者: Siyi Lu, Lei He, Shengbo Eben Li, Yugong Luo, Jianqiang Wang, Keqiang Li

分类: cs.AI

发布日期: 2024-09-26


💡 一句话要点

提出结合BEV感知与深度强化学习的端到端自动驾驶框架,提升驾驶性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 深度强化学习 鸟瞰图感知 端到端学习 多传感器融合

📋 核心要点

  1. 现有端到端自动驾驶方法忽略了DRL特征提取与感知之间的联系,导致模型可解释性不足。
  2. 该论文提出一种基于BEV的DRL端到端框架,将DRL特征提取与感知阶段直接关联,提升环境理解能力。
  3. 实验表明,该方法在自动驾驶控制任务中显著优于现有方法,碰撞率降低了20%,提升了安全性。

📝 摘要(中文)

本文提出了一种端到端的自动驾驶框架,该框架将深度强化学习(DRL)与鸟瞰图(BEV)感知相结合,旨在弥合DRL特征提取与感知之间的差距。通过将DRL特征提取网络直接映射到感知阶段,实现更清晰的语义分割解释。该系统利用多传感器输入构建统一的三维环境理解,提取关键环境特征并将其转化为DRL的高级抽象状态,从而实现更明智的控制。实验结果表明,该方法不仅增强了解释性,还在自动驾驶控制任务中显著优于现有方法,碰撞率降低了20%。

🔬 方法详解

问题定义:现有端到端自动驾驶方法,特别是基于深度强化学习的方法,在特征提取和感知之间存在脱节,导致模型缺乏可解释性,难以理解其决策过程。此外,如何有效地利用多传感器信息构建环境的统一表征也是一个挑战。

核心思路:该论文的核心思路是将深度强化学习的特征提取网络与感知阶段直接关联,利用鸟瞰图(BEV)表示作为中间桥梁,将多传感器信息融合为统一的三维环境理解。通过这种方式,DRL能够基于更具语义信息的环境表征进行决策,从而提高驾驶性能和可解释性。

技术框架:该框架包含以下主要模块:1) 多传感器数据输入:接收来自摄像头、激光雷达等多种传感器的数据。2) BEV感知模块:将多传感器数据转换为鸟瞰图(BEV)表示,实现环境的三维重建和语义分割。3) DRL特征提取模块:从BEV表示中提取关键环境特征,并将其转化为DRL的高级抽象状态。4) DRL控制模块:基于提取的状态,利用强化学习算法生成车辆的控制指令,如油门、刹车和转向。

关键创新:该论文的关键创新在于将DRL的特征提取与BEV感知相结合,实现了端到端的学习。通过将DRL特征提取网络直接映射到感知阶段,使得DRL能够基于更具语义信息的环境表征进行决策,从而提高驾驶性能和可解释性。与现有方法相比,该方法能够更有效地利用多传感器信息,并提供更清晰的决策依据。

关键设计:具体网络结构和参数设置在论文中未详细说明,属于未知信息。但可以推测,BEV感知模块可能采用卷积神经网络(CNN)进行特征提取和语义分割,DRL控制模块可能采用深度Q网络(DQN)或策略梯度算法进行决策。损失函数的设计可能包括强化学习的奖励函数和感知模块的分割损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在自动驾驶控制任务中显著优于现有方法,碰撞率降低了20%。这表明该方法能够更有效地利用多传感器信息,并提供更清晰的决策依据,从而提高自动驾驶系统的安全性和可靠性。具体的实验设置和对比基线在论文中未详细说明,属于未知信息。

🎯 应用场景

该研究成果可应用于各种自动驾驶场景,包括城市道路、高速公路和停车场等。通过提高自动驾驶系统的安全性和可靠性,可以减少交通事故,提高交通效率,并为人们提供更便捷的出行方式。此外,该方法在机器人导航、智能交通管理等领域也具有潜在的应用价值。

📄 摘要(原文)

End-to-end autonomous driving offers a streamlined alternative to the traditional modular pipeline, integrating perception, prediction, and planning within a single framework. While Deep Reinforcement Learning (DRL) has recently gained traction in this domain, existing approaches often overlook the critical connection between feature extraction of DRL and perception. In this paper, we bridge this gap by mapping the DRL feature extraction network directly to the perception phase, enabling clearer interpretation through semantic segmentation. By leveraging Bird's-Eye-View (BEV) representations, we propose a novel DRL-based end-to-end driving framework that utilizes multi-sensor inputs to construct a unified three-dimensional understanding of the environment. This BEV-based system extracts and translates critical environmental features into high-level abstract states for DRL, facilitating more informed control. Extensive experimental evaluations demonstrate that our approach not only enhances interpretability but also significantly outperforms state-of-the-art methods in autonomous driving control tasks, reducing the collision rate by 20%.