Vega: Learning to Drive with Natural Language Instructions

📄 arXiv: 2603.25741v1 📥 PDF

作者: Sicheng Zuo, Yuxuan Li, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu

分类: cs.CV, cs.AI, cs.RO

发布日期: 2026-03-26

备注: Code is available at https://github.com/zuosc19/Vega


💡 一句话要点

提出Vega模型,通过自然语言指令实现个性化自动驾驶。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 自然语言指令 视觉语言模型 轨迹规划 扩散模型

📋 核心要点

  1. 现有自动驾驶模型在利用自然语言指令方面存在不足,无法灵活地根据用户指令进行个性化驾驶。
  2. Vega模型采用自回归和扩散范式,融合视觉、语言和世界模型,实现基于指令的轨迹生成和规划。
  3. 实验表明,Vega模型在规划性能和指令遵循能力方面均表现出色,为个性化自动驾驶提供新方案。

📝 摘要(中文)

本文提出了一种基于自然语言指令的自动驾驶方法。现有视觉-语言-动作模型主要利用语言进行场景描述或推理,缺乏根据用户指令进行个性化驾驶的灵活性。为了解决这个问题,作者构建了一个大规模驾驶数据集InstructScene,包含约10万个场景,并标注了多样化的驾驶指令和对应的轨迹。然后,作者提出了一个统一的视觉-语言-世界-动作模型Vega,用于基于指令的生成和规划。该模型采用自回归范式处理视觉输入和语言指令,采用扩散范式生成未来预测和轨迹。通过联合注意力机制实现模态间的交互,并使用独立的投影层增强不同模态的能力。实验结果表明,该方法不仅实现了卓越的规划性能,还表现出强大的指令遵循能力,为更智能和个性化的驾驶系统铺平了道路。

🔬 方法详解

问题定义:现有自动驾驶系统主要依赖于预定义的规则或端到端学习,难以根据用户的个性化指令进行灵活的驾驶行为规划。现有视觉-语言-动作模型虽然能够利用语言信息,但主要用于场景描述或推理,缺乏直接根据指令生成驾驶轨迹的能力,无法满足用户多样化的驾驶需求。

核心思路:Vega模型的核心思路是将自动驾驶任务视为一个条件生成问题,即根据视觉输入和自然语言指令,生成未来一段时间内的车辆轨迹。通过将视觉、语言和世界模型进行统一建模,并采用自回归和扩散范式,实现指令到动作的映射。这种方法能够更好地理解用户意图,并生成符合指令的驾驶行为。

技术框架:Vega模型是一个统一的视觉-语言-世界-动作模型。整体框架包括以下几个主要模块:1) 视觉编码器:用于提取视觉输入中的特征;2) 语言编码器:用于编码自然语言指令;3) 世界模型:用于预测未来场景的状态;4) 动作解码器:用于生成车辆的轨迹。视觉和语言编码器的输出通过联合注意力机制进行融合,然后输入到世界模型和动作解码器中。世界模型采用扩散模型进行训练,动作解码器采用自回归模型进行训练。

关键创新:Vega模型的主要创新点在于:1) 提出了一个统一的视觉-语言-世界-动作模型,能够同时处理视觉输入、语言指令和世界状态;2) 采用了自回归和扩散范式,分别用于处理语言指令和生成未来预测,提高了模型的生成能力和鲁棒性;3) 构建了一个大规模驾驶数据集InstructScene,为模型的训练和评估提供了数据支持。

关键设计:在网络结构方面,Vega模型使用了Transformer架构作为视觉和语言编码器的基础。为了更好地融合不同模态的信息,模型采用了联合注意力机制。在训练过程中,模型使用了多种损失函数,包括轨迹预测损失、指令遵循损失等。此外,为了提高模型的泛化能力,作者还使用了数据增强技术。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Vega模型在InstructScene数据集上取得了显著的性能提升。与现有方法相比,Vega模型在轨迹预测精度和指令遵循能力方面均有明显优势。例如,在某些指标上,Vega模型的性能提升了10%以上,证明了其有效性和优越性。

🎯 应用场景

Vega模型可应用于各种自动驾驶场景,例如个性化导航、定制驾驶风格、人机协作驾驶等。该研究成果有助于提升自动驾驶系统的智能化水平和用户体验,促进自动驾驶技术的商业化应用。未来,该模型还可以扩展到其他机器人领域,例如家庭服务机器人、工业机器人等。

📄 摘要(原文)

Vision-language-action models have reshaped autonomous driving to incorporate languages into the decision-making process. However, most existing pipelines only utilize the language modality for scene descriptions or reasoning and lack the flexibility to follow diverse user instructions for personalized driving. To address this, we first construct a large-scale driving dataset (InstructScene) containing around 100,000 scenes annotated with diverse driving instructions with the corresponding trajectories. We then propose a unified Vision-Language-World-Action model, Vega, for instruction-based generation and planning. We employ the autoregressive paradigm to process visual inputs (vision) and language instructions (language) and the diffusion paradigm to generate future predictions (world modeling) and trajectories (action). We perform joint attention to enable interactions between the modalities and use individual projection layers for different modalities for more capabilities. Extensive experiments demonstrate that our method not only achieves superior planning performance but also exhibits strong instruction-following abilities, paving the way for more intelligent and personalized driving systems.