Goal-Based Vision-Language Driving
作者: Santosh Patapati, Trisanth Srinivasan
分类: cs.CV, cs.AI, cs.LG, cs.MM, cs.RO
发布日期: 2025-07-30 (更新: 2025-10-13)
备注: 6 pages
💡 一句话要点
NovaDrive:基于视觉语言模型的单分支自动驾驶架构,提升安全性与效率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 视觉语言模型 多模态融合 交叉注意力 平滑损失
📋 核心要点
- 现有自动驾驶方法难以兼顾实时性与复杂场景推理,尤其在融合多模态信息方面存在挑战。
- NovaDrive提出单分支视觉语言架构,利用交叉注意力机制有效融合视觉、地图、激光雷达和文本航点信息。
- 实验表明,NovaDrive在自动驾驶基准测试中显著提升了成功率、路径效率,并降低了碰撞频率。
📝 摘要(中文)
本文提出NovaDrive,一种单分支视觉语言架构,用于处理前置摄像头图像、高清地图瓦片、激光雷达深度信息和文本航点,以实现自动驾驶。该架构采用轻量级的两阶段交叉注意力模块,首先将航点token与高清地图对齐,然后细化图像和深度patch的注意力。结合新的平滑损失,抑制突兀的转向和速度变化,无需循环记忆。通过微调11B LLaMA-3.2视觉语言模型的顶部15层,实现实时推理。在MD-NEX Outdoor基准测试的nuScenes/Waymo子集上,NovaDrive的成功率提高到84%(+4%),路径效率(SPL)提高到0.66(+0.11),碰撞频率从2.6%降低到1.2%(-1.4%),优于现有技术。消融实验表明,航点token、部分VLM微调和交叉注意力融合对这些提升贡献最大。除了安全性,NovaDrive更短的路线(得益于平滑损失)转化为更低的燃料或电池消耗,预示着更精简、更易于更新的驾驶堆栈。NovaDrive可以扩展到其他具身智能领域。
🔬 方法详解
问题定义:自动驾驶需要在复杂环境中实时做出决策,现有方法在处理多模态输入(图像、地图、激光雷达、文本)时,往往难以兼顾推理能力和实时性。尤其是在融合不同模态信息时,计算复杂度高,难以满足自动驾驶的实时性要求。此外,车辆行驶的平滑性也是一个重要问题,频繁、剧烈的转向和速度变化会影响乘客舒适度和安全性。
核心思路:NovaDrive的核心思路是利用一个单分支的视觉语言模型(VLM)来统一处理多模态输入,并通过轻量级的交叉注意力机制高效地融合这些信息。通过将所有输入转换为token序列,并利用VLM强大的语言建模能力进行推理,从而实现端到端的自动驾驶。此外,引入平滑损失来约束车辆的运动,鼓励平稳的驾驶行为。
技术框架:NovaDrive的整体架构包括以下几个主要模块:1) 多模态输入编码器:将前置摄像头图像、高清地图瓦片、激光雷达深度信息和文本航点编码为token序列。2) 两阶段交叉注意力模块:首先将航点token与高清地图token对齐,然后细化图像和深度patch的注意力。3) 视觉语言模型(VLM):使用预训练的LLaMA-3.2作为骨干网络,并进行微调。4) 驾驶行为预测器:根据VLM的输出预测车辆的转向和速度。
关键创新:NovaDrive的关键创新在于:1) 单分支架构:简化了模型结构,提高了推理效率。2) 两阶段交叉注意力:高效地融合了多模态信息。3) 平滑损失:约束了车辆的运动,提高了驾驶的平稳性。4) 部分VLM微调:在保证性能的同时,降低了计算成本。
关键设计:NovaDrive的关键设计包括:1) 使用预训练的LLaMA-3.2作为VLM的骨干网络,并微调顶部15层。2) 两阶段交叉注意力模块的具体实现,包括注意力头的数量、维度等。3) 平滑损失的具体形式,例如,可以使用转向角和速度变化的二阶导数作为惩罚项。4) 训练数据的选择和增强策略。
📊 实验亮点
NovaDrive在MD-NEX Outdoor基准测试的nuScenes/Waymo子集上取得了显著的性能提升。成功率提高到84%(+4%),路径效率(SPL)提高到0.66(+0.11),碰撞频率从2.6%降低到1.2%(-1.4%),相较于之前的state-of-the-art方法。消融实验表明,航点token、部分VLM微调和交叉注意力融合对这些提升贡献最大。
🎯 应用场景
NovaDrive技术可应用于各种自动驾驶场景,包括城市道路、高速公路和越野环境。其高效的架构和强大的推理能力使其能够适应复杂的交通状况和多变的路况。此外,该技术还可以扩展到其他具身智能领域,例如机器人导航、无人机控制等,具有广阔的应用前景。
📄 摘要(原文)
Autonomous vehicles must react in milliseconds while reasoning about road geometry and traffic intent to navigate complex situations. We introduce NovaDrive, a single-branch vision-language architecture that processes front-camera images, HD-map tiles, LiDAR depth, and textual waypoints in a single branch. A lightweight, two-stage cross-attention block first aligns waypoint tokens with the HD map, then refines attention over fine-grained image and depth patches. Coupled with a novel smoothness loss that discourages abrupt steering and speed changes, this design eliminates the need for recurrent memory. We fine-tune the top 15 layers of an 11B LLaMA-3.2 vision-language backbone, enabling real-time inference. On the nuScenes / Waymo subset of the MD-NEX Outdoor benchmark, NovaDrive raises success rate to 84% (+4%), boosts path-efficiency (SPL) to 0.66 (+0.11), and reduces collision frequency from 2.6% to 1.2% (-1.4%) relative to the previous state-of-the-art. Our ablations confirm that waypoint tokens, partial VLM fine-tuning, and the cross-attention fusion each contribute the most to these gains. Beyond safety, NovaDrive's shorter routes (resulting from the novel smoothness loss) translate to lower fuel or battery usage, pointing toward leaner, more easily updated driving stacks. NovaDrive can be extended to other embodied-AI domains as well.