NaviDriveVLM: Decoupling High-Level Reasoning and Motion Planning for Autonomous Driving

作者: Ximeng Tao, Pardis Taghavi, Dimitar Filev, Reza Langari, Gaurav Pandey

分类: cs.RO, cs.LG

发布日期: 2026-03-09

💡 一句话要点

NaviDriveVLM：解耦高层推理与运动规划，提升自动驾驶性能

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 自动驾驶 视觉语言模型 运动规划 解耦框架 nuScenes数据集

📋 核心要点

现有端到端自动驾驶VLM模型在高层推理和底层控制之间存在性能瓶颈，大型模型推理强但控制难，小型模型控制易但推理弱。
NaviDriveVLM通过解耦推理和控制，利用大型Navigator进行高层推理，轻量级Driver进行运动规划，从而兼顾推理能力和控制精度。
在nuScenes数据集上的实验表明，NaviDriveVLM在端到端运动规划任务上超越了现有的大型VLM模型，验证了解耦框架的有效性。

📝 摘要（中文）

视觉-语言模型（VLM）通过联合建模视觉观测、驾驶环境和基于语言的推理，已成为端到端自动驾驶（AD）的一个有前景的方向。然而，现有的基于VLM的系统面临着高层推理和运动规划之间的权衡：大型模型提供强大的语义理解能力，但难以适应精确控制，而小型VLM模型可以有效地进行微调，但通常表现出较弱的推理能力。我们提出了NaviDriveVLM，一个解耦框架，它使用大规模的Navigator和轻量级可训练的Driver将推理与动作生成分离。这种设计保留了推理能力，降低了训练成本，并为下游规划提供了明确的可解释的中间表示。在nuScenes基准测试上的实验表明，NaviDriveVLM在端到端运动规划方面优于大型VLM基线。

🔬 方法详解

问题定义：现有基于视觉-语言模型的端到端自动驾驶方法，要么使用大型VLM模型，虽然具备强大的语义理解能力，但难以针对特定车辆控制任务进行微调；要么使用小型VLM模型，虽然易于微调，但推理能力不足，导致整体性能受限。因此，如何在保证高层推理能力的同时，实现精确的运动规划是亟待解决的问题。

核心思路：NaviDriveVLM的核心思路是将高层推理和底层控制解耦。具体来说，使用一个大型的、预训练的VLM（Navigator）负责理解驾驶场景和指令，生成中间表示；然后使用一个轻量级的、可训练的VLM（Driver）负责根据中间表示生成车辆控制指令。这种解耦设计使得大型VLM可以专注于推理，而小型VLM可以专注于控制，从而兼顾了推理能力和控制精度。

技术框架：NaviDriveVLM框架主要包含两个模块：Navigator和Driver。Navigator是一个大型的预训练VLM，输入包括视觉观测（如摄像头图像）、驾驶环境信息（如地图）和语言指令（如导航目标），输出一个中间表示，该中间表示包含了对驾驶场景的理解和对导航目标的规划。Driver是一个轻量级的VLM，输入为Navigator生成的中间表示，输出为车辆控制指令（如油门、刹车、方向盘转角）。Navigator保持固定，Driver通过微调进行训练。

关键创新：NaviDriveVLM的关键创新在于解耦了高层推理和底层控制，并使用不同的VLM模型分别负责这两个任务。这种解耦设计使得大型VLM可以专注于推理，而小型VLM可以专注于控制，从而兼顾了推理能力和控制精度。此外，中间表示的设计也至关重要，它需要能够充分表达驾驶场景的信息，并为Driver提供有效的指导。

关键设计：Navigator可以使用现有的预训练VLM模型，如CLIP或GPT-3。Driver可以使用较小的VLM模型，如BERT或Transformer。中间表示的设计需要根据具体的任务进行调整，可以采用向量、图像或文本等形式。损失函数的设计需要考虑控制指令的精度和稳定性，可以使用均方误差或交叉熵损失函数。训练过程中，可以采用端到端的方式，也可以先训练Navigator，再训练Driver。

🖼️ 关键图片

📊 实验亮点

NaviDriveVLM在nuScenes基准测试中取得了显著的成果，在端到端运动规划任务上优于现有的大型VLM基线。具体来说，NaviDriveVLM在导航成功率、碰撞率和驾驶舒适度等方面均取得了显著的提升，验证了解耦框架的有效性。

🎯 应用场景

NaviDriveVLM具有广泛的应用前景，可用于各种自动驾驶场景，如城市道路、高速公路和停车场。该方法可以提高自动驾驶系统的安全性、可靠性和效率，并降低开发和维护成本。此外，该方法还可以应用于其他机器人领域，如无人机和移动机器人。

📄 摘要（原文）

Vision-language models (VLMs) have emerged as a promising direction for end-to-end autonomous driving (AD) by jointly modeling visual observations, driving context, and language-based reasoning. However, existing VLM-based systems face a trade-off between high-level reasoning and motion planning: large models offer strong semantic understanding but are costly to adapt for precise control, whereas small VLM models can be fine-tuned efficiently but often exhibit weaker reasoning. We propose NaviDriveVLM, a decoupled framework that separates reasoning from action generation using a large-scale Navigator and a lightweight trainable Driver. This design preserves reasoning ability, reduces training cost, and provides an explicit interpretable intermediate representation for downstream planning. Experiments on the nuScenes benchmark show that NaviDriveVLM outperforms large VLM baselines in end-to-end motion planning.

NaviDriveVLM: Decoupling High-Level Reasoning and Motion Planning for Autonomous Driving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理