LLaViDA: A Large Language Vision Driving Assistant for Explicit Reasoning and Enhanced Trajectory Planning

作者: Yudong Liu, Spencer Hallyburton, Jiwoo Kim, Yueqian Lin, Yiming Li, Qinsi Wang, Hui Ye, Jingwei Sun, Miroslav Pajic, Yiran Chen, Hai Li

分类: cs.RO, cs.AI

发布日期: 2025-12-20

💡 一句话要点

提出LLaViDA，利用视觉语言模型增强自动驾驶轨迹规划的推理能力。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 轨迹规划 视觉语言模型 VLM 思维链推理 NuScenes 轨迹偏好优化

📋 核心要点

端到端轨迹规划器在恶劣天气和复杂路况下泛化能力不足，缺乏对训练数据之外场景的few-shot能力。
LLaViDA利用VLM进行目标运动预测、语义对齐和思维链推理，从而提升自动驾驶轨迹规划的性能。
通过监督微调和轨迹偏好优化，LLaViDA在NuScenes测试集上取得了优异的轨迹规划效果，显著降低了轨迹误差和碰撞率。

📝 摘要（中文）

本文提出了一种名为LLaViDA的大型语言视觉驾驶助手，它利用视觉语言模型（VLM）进行目标运动预测、语义对齐以及用于自动驾驶轨迹规划的思维链推理。通过一个两阶段的训练流程——监督微调和轨迹偏好优化（TPO），该方法通过注入基于回归的监督来增强场景理解和轨迹规划，从而产生一个强大的“用于自动驾驶的VLM轨迹规划器”。在NuScenes基准测试中，LLaViDA在开放循环轨迹规划任务中超越了最先进的端到端方法和其他基于VLM/LLM的基线，在NuScenes测试集上实现了0.31米的平均L2轨迹误差和0.10%的碰撞率。

🔬 方法详解

问题定义：自动驾驶中的轨迹规划是一个关键但具有挑战性的问题。现有的端到端规划器在面对复杂场景（如恶劣天气、不确定的人类行为或复杂的道路布局）时，由于缺乏足够的泛化能力和少样本学习能力，表现往往不佳。这些方法难以有效利用场景中的语义信息进行推理，导致规划出的轨迹不够安全和合理。

核心思路：LLaViDA的核心思路是利用大型视觉语言模型（VLM）的强大能力，将视觉感知和语言推理相结合，从而更好地理解驾驶场景并生成更优的轨迹。通过VLM，模型可以预测场景中物体的运动，进行语义对齐，并进行链式思考推理，从而做出更明智的决策。

技术框架：LLaViDA的整体框架包含以下几个主要模块：1) 视觉感知模块：用于从摄像头图像中提取场景信息。2) 视觉语言模型（VLM）：用于将视觉信息与语言信息对齐，并进行推理。3) 轨迹规划模块：基于VLM的输出，生成车辆的轨迹。该方法采用两阶段训练流程：首先进行监督微调，然后进行轨迹偏好优化（TPO）。

关键创新：LLaViDA的关键创新在于将VLM引入到自动驾驶的轨迹规划中，并设计了一个有效的两阶段训练流程。与传统的端到端方法相比，LLaViDA能够更好地利用场景中的语义信息进行推理，从而提高轨迹规划的性能。与其他的基于VLM/LLM的方法相比，LLaViDA通过轨迹偏好优化，能够更好地学习人类驾驶员的驾驶习惯，从而生成更自然的轨迹。

关键设计：在训练过程中，LLaViDA使用了回归损失函数来监督VLM的学习，使其能够准确预测场景中物体的运动。轨迹偏好优化（TPO）则通过比较不同轨迹的优劣，来学习人类驾驶员的驾驶习惯。具体的网络结构和参数设置在论文中有详细描述，但摘要中未提供具体细节。

🖼️ 关键图片

📊 实验亮点

LLaViDA在NuScenes基准测试中取得了显著的成果，超越了现有的最先进方法。在开放循环轨迹规划任务中，LLaViDA在NuScenes测试集上实现了0.31米的平均L2轨迹误差和0.10%的碰撞率。相较于其他基于VLM/LLM的基线方法，LLaViDA在轨迹规划的准确性和安全性方面均有显著提升。

🎯 应用场景

LLaViDA具有广泛的应用前景，可用于提高自动驾驶系统的安全性和可靠性。该技术可以应用于各种自动驾驶车辆，包括乘用车、卡车和无人巴士。此外，LLaViDA还可以用于辅助驾驶系统，帮助驾驶员更好地理解驾驶场景并做出更明智的决策。未来，该技术有望在智慧交通领域发挥重要作用。

📄 摘要（原文）

Trajectory planning is a fundamental yet challenging component of autonomous driving. End-to-end planners frequently falter under adverse weather, unpredictable human behavior, or complex road layouts, primarily because they lack strong generalization or few-shot capabilities beyond their training data. We propose LLaViDA, a Large Language Vision Driving Assistant that leverages a Vision-Language Model (VLM) for object motion prediction, semantic grounding, and chain-of-thought reasoning for trajectory planning in autonomous driving. A two-stage training pipeline--supervised fine-tuning followed by Trajectory Preference Optimization (TPO)--enhances scene understanding and trajectory planning by injecting regression-based supervision, produces a powerful "VLM Trajectory Planner for Autonomous Driving." On the NuScenes benchmark, LLaViDA surpasses state-of-the-art end-to-end and other recent VLM/LLM-based baselines in open-loop trajectory planning task, achieving an average L2 trajectory error of 0.31 m and a collision rate of 0.10% on the NuScenes test set. The code for this paper is available at GitHub.

LLaViDA: A Large Language Vision Driving Assistant for Explicit Reasoning and Enhanced Trajectory Planning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理