LatentVLA: Efficient Vision-Language Models for Autonomous Driving via Latent Action Prediction

📄 arXiv: 2601.05611v1 📥 PDF

作者: Chengen Xie, Bin Sun, Tianyu Li, Junjie Wu, Zhihui Hao, XianPeng Lang, Hongyang Li

分类: cs.CV

发布日期: 2026-01-09


💡 一句话要点

LatentVLA:基于自监督隐空间动作预测的高效自动驾驶视觉-语言模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉-语言模型 自监督学习 隐空间动作预测 知识蒸馏 轨迹预测 零样本泛化

📋 核心要点

  1. 现有端到端自动驾驶模型在常见场景表现良好,但在罕见场景中表现不佳,原因是场景多样性不足。
  2. LatentVLA通过自监督隐空间动作预测,无需语言标注即可训练VLA模型,消除语言偏差,学习丰富的驾驶表征。
  3. LatentVLA在NAVSIM上达到SOTA,PDMS为92.4,并在nuScenes上展示了强大的零样本泛化能力。

📝 摘要(中文)

本文提出LatentVLA,一种新颖的框架,通过自监督隐空间动作预测训练VLA模型,无需语言标注,从而消除语言偏差,同时从无标签轨迹数据中学习丰富的驾驶表征。通过知识蒸馏,LatentVLA将VLA模型的泛化能力转移到高效的纯视觉网络,实现鲁棒的性能和实时的效率。LatentVLA在NAVSIM基准测试上取得了新的state-of-the-art,PDMS得分为92.4,并在nuScenes基准测试上展示了强大的零样本泛化能力。该方法旨在解决现有VLA模型在自动驾驶中面临的轨迹预测精度不足、依赖语言标注以及计算效率低下的问题。

🔬 方法详解

问题定义:现有基于视觉-语言-动作(VLA)的自动驾驶模型虽然能够利用预训练视觉-语言模型中的知识,但在实际应用中存在三个主要痛点:一是由于离散token化导致轨迹预测的数值精度不足;二是过度依赖语言标注,引入了语言偏差并增加了标注负担;三是多步链式推理导致计算效率低下,难以满足实时部署的需求。

核心思路:LatentVLA的核心思路是通过自监督学习的方式,利用无标签的轨迹数据来训练VLA模型,从而避免对语言标注的依赖,消除语言偏差。具体而言,模型学习预测隐空间的动作表示,而不是直接预测轨迹,从而提高预测的精度和鲁棒性。然后,通过知识蒸馏,将VLA模型的泛化能力迁移到更高效的纯视觉模型上,以实现实时部署。

技术框架:LatentVLA的整体框架包含三个主要模块:1) 隐空间动作预测模块:该模块利用自编码器学习轨迹数据的隐空间表示,并训练模型预测隐空间的动作表示。2) VLA模型:该模型利用视觉信息和隐空间动作表示,学习驾驶策略。3) 知识蒸馏模块:该模块将VLA模型的知识迁移到纯视觉模型上,以提高计算效率。整个流程首先使用无标签轨迹数据训练隐空间动作预测模块,然后训练VLA模型,最后通过知识蒸馏得到高效的纯视觉模型。

关键创新:LatentVLA最重要的技术创新点在于使用自监督隐空间动作预测来训练VLA模型,从而避免了对语言标注的依赖,消除了语言偏差。此外,通过知识蒸馏,将VLA模型的泛化能力迁移到纯视觉模型上,实现了鲁棒性能和实时效率的兼顾。

关键设计:在隐空间动作预测模块中,使用了变分自编码器(VAE)来学习轨迹数据的隐空间表示。损失函数包括重构损失和KL散度损失,用于保证隐空间表示的质量。在知识蒸馏模块中,使用了行为克隆(Behavior Cloning)作为蒸馏方法,将VLA模型的动作预测作为目标,训练纯视觉模型。

📊 实验亮点

LatentVLA在NAVSIM基准测试上取得了92.4的PDMS得分,超越了现有的state-of-the-art方法。此外,该方法在nuScenes基准测试上展示了强大的零样本泛化能力,表明其学习到的驾驶策略具有良好的泛化性。通过知识蒸馏,LatentVLA将VLA模型的性能迁移到纯视觉模型上,实现了实时推理,为实际部署提供了可能。

🎯 应用场景

LatentVLA在自动驾驶领域具有广泛的应用前景。它可以用于提高自动驾驶系统在复杂和罕见场景下的鲁棒性和安全性。此外,该方法还可以应用于其他需要从无标签数据中学习策略的任务,例如机器人导航和游戏AI。通过减少对语言标注的依赖,LatentVLA可以降低数据采集和标注的成本,加速自动驾驶技术的部署。

📄 摘要(原文)

End-to-end autonomous driving models trained on largescale datasets perform well in common scenarios but struggle with rare, long-tail situations due to limited scenario diversity. Recent Vision-Language-Action (VLA) models leverage broad knowledge from pre-trained visionlanguage models to address this limitation, yet face critical challenges: (1) numerical imprecision in trajectory prediction due to discrete tokenization, (2) heavy reliance on language annotations that introduce linguistic bias and annotation burden, and (3) computational inefficiency from multi-step chain-of-thought reasoning hinders real-time deployment. We propose LatentVLA, a novel framework that employs self-supervised latent action prediction to train VLA models without language annotations, eliminating linguistic bias while learning rich driving representations from unlabeled trajectory data. Through knowledge distillation, LatentVLA transfers the generalization capabilities of VLA models to efficient vision-based networks, achieving both robust performance and real-time efficiency. LatentVLA establishes a new state-of-the-art on the NAVSIM benchmark with a PDMS score of 92.4 and demonstrates strong zeroshot generalization on the nuScenes benchmark.