BeLLA: End-to-End Birds Eye View Large Language Assistant for Autonomous Driving
作者: Karthik Mohan, Sonam Singh, Amit Arvind Kale
分类: cs.CV
发布日期: 2025-12-05
💡 一句话要点
BeLLA:用于自动驾驶的端到端鸟瞰图大语言助手
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 鸟瞰图 大语言模型 多模态学习 空间推理
📋 核心要点
- 现有自动驾驶视觉语言模型难以有效利用多摄像头系统的空间结构,限制了空间推理能力。
- BeLLA通过端到端架构,将360°鸟瞰图(BEV)表示与大型语言模型相结合,提升空间理解。
- 在NuScenes-QA和DriveLM基准测试中,BeLLA在空间推理任务上显著优于现有方法,提升高达9.3%。
📝 摘要(中文)
视觉-语言模型(VLMs)和多模态语言模型(MLLMs)在自动驾驶研究中的快速发展,通过实现更丰富的场景理解、上下文感知的推理和更可解释的决策,显著地重塑了该领域。然而,许多现有工作要么依赖于无法利用多摄像头系统空间结构的单视角编码器,要么在聚合的多视角特征上操作,缺乏统一的空间表示,使得推理以自我为中心的方位、对象关系和更广泛的上下文更具挑战性。因此,我们提出了BeLLA,一个端到端架构,将统一的360°BEV表示与大型语言模型连接起来,用于自动驾驶中的问答。我们主要使用NuScenes-QA和DriveLM两个基准评估我们的工作,BeLLA在需要更强的空间推理的问题上始终优于现有方法,例如涉及相对对象定位和附近对象的行为理解的问题,在某些任务中实现了高达+9.3%的绝对改进。在其他类别中,BeLLA表现出竞争力,展示了处理各种问题的能力。
🔬 方法详解
问题定义:现有自动驾驶视觉语言模型在处理多摄像头数据时,要么使用单视角编码器,无法充分利用空间信息;要么直接聚合多视角特征,缺乏统一的空间表示,导致难以进行以自我为中心的方位推理、对象关系理解和全局上下文感知。这限制了模型在需要复杂空间推理的场景下的性能。
核心思路:BeLLA的核心思路是将多摄像头数据转换为统一的360°鸟瞰图(BEV)表示,然后将该BEV表示与大型语言模型(LLM)连接起来。通过BEV表示,模型可以获得场景的全局空间信息,从而更好地进行空间推理。利用LLM,模型可以理解自然语言问题,并生成相应的答案。
技术框架:BeLLA的整体架构包含三个主要模块:1) 多摄像头图像编码器:用于提取每个摄像头图像的特征;2) BEV构建模块:将多摄像头特征转换为统一的360°BEV表示;3) 大型语言模型(LLM):接收BEV表示和自然语言问题,生成答案。整个流程是端到端可训练的。
关键创新:BeLLA的关键创新在于将统一的360°BEV表示与大型语言模型相结合,实现端到端的自动驾驶场景问答。与现有方法相比,BeLLA能够更好地利用多摄像头系统的空间信息,从而提升空间推理能力。此外,端到端的训练方式使得模型能够更好地优化各个模块之间的协同作用。
关键设计:BEV构建模块可能采用类似Lift, Splat, Shoot的方法,将图像特征投影到3D空间,然后进行体素化。LLM可以使用预训练的语言模型,如BERT或GPT系列,并在自动驾驶数据集上进行微调。损失函数可能包括问答损失和辅助损失,以提高模型的性能。
🖼️ 关键图片
📊 实验亮点
BeLLA在NuScenes-QA和DriveLM基准测试中取得了显著的性能提升。在需要更强空间推理的问题上,BeLLA始终优于现有方法,例如涉及相对对象定位和附近对象的行为理解的问题,在某些任务中实现了高达+9.3%的绝对改进。这表明BeLLA在空间推理方面具有显著优势。
🎯 应用场景
BeLLA的研究成果可应用于自动驾驶系统的场景理解、决策规划和人机交互。例如,系统可以回答乘客关于周围环境的问题,辅助驾驶员进行决策,或者为自动驾驶车辆提供更准确的环境感知。此外,该技术还可以扩展到其他需要空间推理的机器人应用,如无人机导航和室内机器人。
📄 摘要(原文)
The rapid development of Vision-Language models (VLMs) and Multimodal Language Models (MLLMs) in autonomous driving research has significantly reshaped the landscape by enabling richer scene understanding, context-aware reasoning, and more interpretable decision-making. However, a lot of existing work often relies on either single-view encoders that fail to exploit the spatial structure of multi-camera systems or operate on aggregated multi-view features, which lack a unified spatial representation, making it more challenging to reason about ego-centric directions, object relations, and the wider context. We thus present BeLLA, an end-to-end architecture that connects unified 360° BEV representations with a large language model for question answering in autonomous driving. We primarily evaluate our work using two benchmarks - NuScenes-QA and DriveLM, where BeLLA consistently outperforms existing approaches on questions that require greater spatial reasoning, such as those involving relative object positioning and behavioral understanding of nearby objects, achieving up to +9.3% absolute improvement in certain tasks. In other categories, BeLLA performs competitively, demonstrating the capability of handling a diverse range of questions.