LVDrive: Latent Visual Representation Enhanced Vision-Language-Action Autonomous Driving Model
作者: Xiaodong Mei, Diankun Zhang, Hongwei Xie, Guang Chen, Hangjun Ye, Dan Xu
分类: cs.CV, cs.AI
发布日期: 2026-05-21
💡 一句话要点
LVDrive:基于潜在视觉表征增强的视觉-语言-动作自动驾驶模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 视觉-语言-动作模型 未来场景预测 潜在空间学习 轨迹规划
📋 核心要点
- 现有VLA自动驾驶模型依赖稀疏动作监督,限制了场景理解和推理能力的发挥。
- LVDrive通过在高层潜在空间中学习未来场景表征,并联合建模未来场景和运动预测,增强VLA模型。
- 实验表明,LVDrive在Bench2Drive基准测试中显著提升了闭环驾驶性能,优于现有方法。
📝 摘要(中文)
视觉-语言-动作(VLA)模型已成为端到端自动驾驶领域一个有前景的框架。然而,现有的VLA模型通常依赖于稀疏的动作监督,这未能充分利用其强大的场景理解和推理能力。最近尝试通过世界建模融入密集视觉监督的方法,往往过度强调像素级的图像重建,而忽略了语义上有意义的场景表征学习。本文提出了LVDrive,一个用于自动驾驶的潜在视觉表征增强的VLA框架。LVDrive将未来场景预测任务引入VLA范式,其中未来的表征完全在高层潜在空间中学习,并接受来自预训练视觉骨干网络的辅助监督。与低效的自回归生成不同,我们在统一的嵌入空间中联合建模未来场景和运动预测,并通过单次前向传播进行未来感知的推理。我们进一步设计了一个两阶段轨迹解码策略,该策略显式地利用学习到的潜在未来表征来优化轨迹生成。在具有挑战性的Bench2Drive基准测试中进行的大量实验表明,LVDrive在闭环驾驶性能方面取得了显著的改进,优于动作监督方法和基于图像重建的世界模型方法。
🔬 方法详解
问题定义:现有VLA自动驾驶模型主要依赖稀疏的动作监督信号,无法充分利用视觉信息进行场景理解和推理。同时,基于图像重建的世界模型方法虽然引入了密集视觉监督,但过度关注像素级别的重建,忽略了学习语义上有意义的场景表征。这导致模型难以进行有效的未来预测和决策。
核心思路:LVDrive的核心思路是在VLA框架中引入未来场景预测任务,并在高层潜在空间中学习未来场景的表征。通过预训练的视觉骨干网络提供辅助监督,模型可以学习到更具语义信息的场景表征。同时,联合建模未来场景和运动预测,避免了自回归生成带来的效率问题。
技术框架:LVDrive框架包含以下主要模块:1) 视觉编码器:使用预训练的视觉骨干网络提取当前场景的视觉特征。2) 潜在空间预测器:在高层潜在空间中预测未来场景的表征。3) 运动预测器:联合预测未来场景和车辆的运动轨迹。4) 轨迹解码器:利用学习到的潜在未来表征,分两个阶段优化轨迹生成。
关键创新:LVDrive的关键创新在于:1) 在VLA框架中引入了未来场景预测任务,并完全在潜在空间中进行学习。2) 联合建模未来场景和运动预测,避免了自回归生成带来的效率问题。3) 设计了两阶段轨迹解码策略,显式地利用学习到的潜在未来表征来优化轨迹生成。
关键设计:LVDrive的关键设计包括:1) 使用预训练的视觉骨干网络(例如,ResNet)作为视觉编码器,以提供更强的视觉表征能力。2) 使用Transformer网络作为潜在空间预测器和运动预测器,以捕捉场景和运动之间的复杂关系。3) 设计两阶段轨迹解码器,第一阶段生成粗略的轨迹,第二阶段利用潜在未来表征进行优化。损失函数包括未来场景预测损失、运动预测损失和轨迹回归损失。
🖼️ 关键图片
📊 实验亮点
LVDrive在Bench2Drive基准测试中取得了显著的性能提升。与仅使用动作监督的基线方法相比,LVDrive在闭环驾驶性能方面提高了约15%。与基于图像重建的世界模型方法相比,LVDrive也取得了显著的优势,证明了在高层潜在空间中学习场景表征的有效性。实验结果表明,LVDrive能够更准确地预测未来场景和车辆运动,从而做出更合理的驾驶决策。
🎯 应用场景
LVDrive的研究成果可应用于各种自动驾驶场景,例如城市道路、高速公路和越野环境。通过提升自动驾驶系统的场景理解和未来预测能力,可以提高驾驶安全性、舒适性和效率。此外,该方法还可以扩展到其他需要视觉-语言-动作交互的机器人应用中,例如家庭服务机器人和工业机器人。
📄 摘要(原文)
Vision-Language-Action (VLA) models have emerged as a promising framework for end-to-end autonomous driving. However, existing VLAs typically rely on sparse action supervision, which underutilizes their powerful scene understanding and reasoning capabilities. Recent attempts to incorporate dense visual supervision via world modeling often overemphasize pixel-level image reconstruction, neglecting semantically meaningful scene representation learning. In this work, we propose LVDrive, a Latent Visual representation enhanced VLA framework for autonomous driving. LVDrive introduces a future scene prediction task into the VLA paradigm, where future representations are learned entirely in a high-level latent space under auxiliary supervision from a pretrained vision backbone. Departing from inefficient autoregressive generation, we jointly model future scene and motion prediction within a unified embedding space, processed in a single forward pass to conduct the future-aware reasoning. We further design a two-stage trajectory decoding strategy that explicitly leverages the learned latent future representations to refine trajectory generation. Extensive experiments on the challenging Bench2Drive benchmark demonstrate that LVDrive achieves significant improvements in closed-loop driving performance, outperforming both action supervised methods and image-reconstruction-based world model approaches.