VLM-E2E: Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusion

📄 arXiv: 2502.18042v2 📥 PDF

作者: Pei Liu, Haipeng Liu, Haichao Liu, Xin Liu, Jinxin Ni, Jun Ma

分类: cs.CV, cs.AI

发布日期: 2025-02-25 (更新: 2025-09-18)


💡 一句话要点

VLM-E2E:利用多模态驾驶员注意力融合增强端到端自动驾驶

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉语言模型 多模态融合 鸟瞰图 注意力机制 端到端学习 语义理解

📋 核心要点

  1. 现有自动驾驶系统在2D到3D转换中丢失语义信息,难以有效应对复杂环境。
  2. VLM-E2E利用VLM提供注意力线索,通过文本表示增强BEV特征,进行语义监督。
  3. 在nuScenes数据集上,VLM-E2E在感知、预测和规划方面均取得了显著提升。

📝 摘要(中文)

本文提出了一种名为VLM-E2E的新框架,旨在利用视觉-语言模型(VLM)增强端到端自动驾驶系统的训练,通过提供注意力线索来提升性能。现有自动驾驶系统在将2D观测转换为3D空间时,常常丢失关键的语义信息,难以像人类驾驶员那样利用丰富的注意力语义来应对复杂场景。VLM-E2E将文本表示集成到鸟瞰图(BEV)特征中,进行语义监督,使模型能够学习更丰富的特征表示,显式地捕捉驾驶员的注意力语义,从而更好地对齐人类驾驶行为。此外,还引入了一种BEV-Text可学习的加权融合策略,以解决多模态信息融合中模态重要性不平衡的问题。在nuScenes数据集上的评估表明,VLM-E2E在感知、预测和规划方面均优于基线端到端模型,证明了其注意力增强的BEV表示在实现更准确和可靠的自动驾驶任务方面的有效性。

🔬 方法详解

问题定义:现有端到端自动驾驶系统在处理复杂动态环境时,难以像人类驾驶员一样有效地利用注意力语义。主要痛点在于将2D图像信息转换为3D鸟瞰图(BEV)表示的过程中,关键的语义信息容易丢失,导致模型无法准确理解场景并做出合理的驾驶决策。

核心思路:论文的核心思路是利用视觉-语言模型(VLM)强大的场景理解和推理能力,为自动驾驶模型提供注意力线索,从而增强其对驾驶场景的语义理解。通过将文本信息融入BEV特征中,模型可以学习到更丰富的特征表示,更好地捕捉驾驶员的注意力焦点,从而更接近人类驾驶行为。

技术框架:VLM-E2E框架主要包含以下几个模块:首先,利用VLM对驾驶场景进行文本描述,提取文本特征;然后,将文本特征与BEV特征进行融合,形成多模态的场景表示;接着,利用融合后的特征进行感知、预测和规划等自动驾驶任务;最后,通过端到端的方式对整个系统进行训练和优化。

关键创新:该论文的关键创新在于:1) 提出了一种利用VLM增强端到端自动驾驶系统训练的方法,通过提供注意力线索来提升性能;2) 引入了一种BEV-Text可学习的加权融合策略,以解决多模态信息融合中模态重要性不平衡的问题。与现有方法相比,VLM-E2E能够更有效地利用文本信息来增强BEV特征,从而提高自动驾驶系统的性能。

关键设计:BEV-Text可学习的加权融合策略是关键设计之一。该策略通过学习权重来动态平衡BEV特征和文本特征的贡献,确保来自视觉和文本模态的互补信息得到有效利用。具体的权重学习方式未知,但推测可能使用了注意力机制或可学习的线性层。损失函数方面,论文采用端到端的训练方式,可能使用了感知、预测和规划任务相关的损失函数的加权和。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VLM-E2E在nuScenes数据集上取得了显著的性能提升。具体而言,在感知、预测和规划等任务上,VLM-E2E均优于基线端到端模型。论文中提到在各项指标上均有显著提升,但未给出具体数值,因此无法量化提升幅度。实验结果表明,通过引入VLM和注意力机制,可以有效提高自动驾驶系统的性能。

🎯 应用场景

VLM-E2E技术可应用于各种自动驾驶场景,尤其是在复杂和动态的环境中,例如城市道路、拥堵交通和恶劣天气条件。通过提升自动驾驶系统对场景的理解和推理能力,该技术可以提高驾驶安全性、舒适性和效率,并加速自动驾驶技术的商业化落地。未来,该技术还可以扩展到其他机器人应用领域,例如无人配送、智能巡检等。

📄 摘要(原文)

Human drivers adeptly navigate complex scenarios by utilizing rich attentional semantics, but the current autonomous systems struggle to replicate this ability, as they often lose critical semantic information when converting 2D observations into 3D space. In this sense, it hinders their effective deployment in dynamic and complex environments. Leveraging the superior scene understanding and reasoning abilities of Vision-Language Models (VLMs), we propose VLM-E2E, a novel framework that uses the VLMs to enhance training by providing attentional cues. Our method integrates textual representations into Bird's-Eye-View (BEV) features for semantic supervision, which enables the model to learn richer feature representations that explicitly capture the driver's attentional semantics. By focusing on attentional semantics, VLM-E2E better aligns with human-like driving behavior, which is critical for navigating dynamic and complex environments. Furthermore, we introduce a BEV-Text learnable weighted fusion strategy to address the issue of modality importance imbalance in fusing multimodal information. This approach dynamically balances the contributions of BEV and text features, ensuring that the complementary information from visual and textual modalities is effectively utilized. By explicitly addressing the imbalance in multimodal fusion, our method facilitates a more holistic and robust representation of driving environments. We evaluate VLM-E2E on the nuScenes dataset and achieve significant improvements in perception, prediction, and planning over the baseline end-to-end model, showcasing the effectiveness of our attention-enhanced BEV representation in enabling more accurate and reliable autonomous driving tasks.