OneDrive: Unified Multi-Paradigm Driving with Vision-Language-Action Models

📄 arXiv: 2604.17915v1 📥 PDF

作者: Yiwei Zhang, Xuesong Chen, Jin Gao, Hanshi Wang, Fudong Ge, Weiming Hu, Shaoshuai Shi, Zhipeng Zhang

分类: cs.CV

发布日期: 2026-04-20

🔗 代码/项目: GITHUB


💡 一句话要点

提出OneDrive,利用视觉-语言-动作模型统一自动驾驶多范式任务。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉语言模型 多任务学习 Transformer 轨迹预测

📋 核心要点

  1. 现有自动驾驶系统通常采用分离或级联解码器处理异构任务,导致架构复杂且骨干网络复用率低。
  2. OneDrive提出统一的Transformer解码器,通过组织视觉和结构化查询token,实现异构任务间的稳定联合优化。
  3. 实验表明,OneDrive在nuScenes和NAVSIM等基准测试中取得了领先或具有竞争力的性能,并降低了推理延迟。

📝 摘要(中文)

视觉-语言模型(VLM)擅长自回归文本生成,但端到端自动驾驶需要多任务学习,具备结构化输出和异构解码行为,例如自回归语言生成、并行目标检测和轨迹回归。为了适应这些差异,现有系统通常引入分离或级联的解码器,导致架构碎片化和有限的骨干网络重用。本文提出了一个基于预训练VLM的统一自动驾驶框架,其中异构解码行为在单个Transformer解码器中得到协调。我们证明了预训练VLM注意力在纯语言建模之外表现出强大的可迁移性。通过在单个因果解码器中组织视觉和结构化查询token,结构化查询可以通过原始注意力机制自然地以视觉上下文为条件。文本和结构化输出共享一个通用的注意力骨干网络,从而能够跨异构任务进行稳定的联合优化。通过引入结构化轨迹查询,在同一个因果LLM解码器中实现轨迹规划。这种统一的公式使得规划能够与图像和感知token共享预训练的注意力骨干网络。在端到端自动驾驶基准上的大量实验表明,该方法达到了最先进的性能,包括在nuScenes开放循环评估中达到0.28的L2距离和0.18的碰撞率,以及在NAVSIM闭环评估中达到具有竞争力的结果(86.8 PDMS)。完整模型保留了多模态生成能力,而高效的推理模式实现了大约40%的延迟降低。代码和模型可在https://github.com/Z1zyw/OneDrive 获取。

🔬 方法详解

问题定义:现有端到端自动驾驶系统需要处理多种任务,如文本生成、目标检测和轨迹预测,这些任务具有不同的输出结构和解码方式。为了适应这些差异,现有方法通常采用分离或级联的解码器,导致模型架构复杂,骨干网络难以充分复用,并且难以进行跨任务的联合优化。

核心思路:本文的核心思路是利用预训练的视觉-语言模型(VLM)的强大表征能力,并设计一个统一的Transformer解码器来处理各种自动驾驶任务。通过将视觉信息和结构化查询token整合到同一个解码器中,使得不同任务可以共享底层的注意力机制,从而实现高效的跨任务学习和推理。

技术框架:OneDrive的整体架构包含一个预训练的VLM骨干网络和一个统一的Transformer解码器。首先,输入图像经过VLM骨干网络提取视觉特征。然后,将视觉特征和结构化查询token(例如,用于目标检测的object query,用于轨迹预测的trajectory query)输入到统一的Transformer解码器中。解码器通过自注意力机制和交叉注意力机制,将视觉信息和查询token进行融合,最终生成各种任务的输出,例如文本描述、目标检测结果和轨迹预测结果。

关键创新:OneDrive的关键创新在于提出了一个统一的Transformer解码器,能够同时处理文本生成、目标检测和轨迹预测等多种自动驾驶任务。通过将视觉信息和结构化查询token整合到同一个解码器中,实现了跨任务的知识共享和高效推理。此外,该方法还利用了预训练VLM的强大表征能力,从而提高了模型的性能。

关键设计:OneDrive的关键设计包括:1) 使用预训练的VLM作为骨干网络,以获得强大的视觉表征能力;2) 设计结构化查询token,用于指导解码器生成特定任务的输出;3) 使用因果注意力机制,使得解码器能够按照时间顺序生成轨迹;4) 设计合适的损失函数,用于联合优化不同任务的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OneDrive在nuScenes开放循环评估中取得了0.28的L2距离和0.18的碰撞率,在NAVSIM闭环评估中取得了86.8 PDMS的性能,均达到了最先进水平或具有竞争力。此外,该模型还保留了多模态生成能力,并且通过高效的推理模式实现了约40%的延迟降低。

🎯 应用场景

OneDrive的潜在应用领域包括自动驾驶、机器人导航、智能交通系统等。该研究成果可以提高自动驾驶系统的感知、决策和控制能力,从而提高驾驶安全性、舒适性和效率。未来,该方法可以进一步扩展到其他多模态任务中,例如视觉问答、图像描述等。

📄 摘要(原文)

Vision-Language Models(VLMs) excel at autoregressive text generation, yet end-to-end autonomous driving requires multi-task learning with structured outputs and heterogeneous decoding behaviors, such as autoregressive language generation, parallel object detection and trajectory regression. To accommodate these differences, existing systems typically introduce separate or cascaded decoders, resulting in architectural fragmentation and limited backbone reuse. In this work, we present a unified autonomous driving framework built upon a pretrained VLM, where heterogeneous decoding behaviors are reconciled within a single transformer decoder. We demonstrate that pretrained VLM attention exhibits strong transferability beyond pure language modeling. By organizing visual and structured query tokens within a single causal decoder, structured queries can naturally condition on visual context through the original attention mechanism. Textual and structured outputs share a common attention backbone, enabling stable joint optimization across heterogeneous tasks. Trajectory planning is realized within the same causal LLM decoder by introducing structured trajectory queries. This unified formulation enables planning to share the pretrained attention backbone with images and perception tokens. Extensive experiments on end-to-end autonomous driving benchmarks demonstrate state-of-the-art performance, including 0.28 L2 and 0.18 collision rate on nuScenes open-loop evaluation and competitive results (86.8 PDMS) on NAVSIM closed-loop evaluation. The full model preserves multi-modal generation capability, while an efficient inference mode achieves approximately 40% lower latency. Code and models are available at https://github.com/Z1zyw/OneDrive