AutoMoT: A Unified Vision-Language-Action Model with Asynchronous Mixture-of-Transformers for End-to-End Autonomous Driving

📄 arXiv: 2603.14851v1 📥 PDF

作者: Wenhui Huang, Songyan Zhang, Qihang Huang, Zhidong Wang, Zhiqi Mao, Collister Chua, Zhan Chen, Long Chen, Chen Lv

分类: cs.CV, cs.RO

发布日期: 2026-03-16


💡 一句话要点

AutoMoT:用于端到端自动驾驶的异步混合Transformer统一视觉-语言-动作模型

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉语言模型 混合Transformer 端到端学习 异步执行 场景理解 动作规划 多任务学习

📋 核心要点

  1. 现有方法难以解决推理和动作空间之间的分布不匹配问题,且未能充分利用预训练VLM的通用推理能力。
  2. AutoMoT提出一种统一的VLA模型,利用混合Transformer架构和异步执行,实现推理和动作生成的高效融合。
  3. 实验表明,AutoMoT在多个自动驾驶基准测试中表现出色,证明了预训练VLM在场景理解和动作规划中的潜力。

📝 摘要(中文)

本文提出AutoMoT,一个端到端自动驾驶框架,它将推理和动作生成统一在一个视觉-语言-动作(VLA)模型中。该方法利用混合Transformer(MoT)架构,通过联合注意力共享,保留了预训练VLM的通用推理能力,并通过不同任务频率下的异步执行实现高效的快-慢推理。在多个基准测试中,包括开放和闭环设置,大量的实验表明AutoMoT取得了与最先进方法相比具有竞争力的性能。此外,本文还研究了预训练VLM在自动驾驶中的功能边界,探讨了何时需要针对自动驾驶进行微调。结果表明,预训练VLM仅通过语义提示即可实现具有竞争力的多任务场景理解性能,而微调对于决策和轨迹规划等动作级别任务仍然至关重要。

🔬 方法详解

问题定义:现有端到端自动驾驶系统在集成视觉-语言模型(VLM)时,面临推理和动作空间分布不匹配的问题,导致VLM的通用推理能力未能充分发挥。此外,现有方法在动作策略生成过程中存在显著的推理延迟,影响驾驶性能。

核心思路:AutoMoT的核心思路是将推理和动作生成统一到一个视觉-语言-动作(VLA)模型中,利用混合Transformer(MoT)架构,通过异步执行实现高效的快-慢推理。这样既能保留预训练VLM的通用推理能力,又能降低推理延迟,提升驾驶性能。

技术框架:AutoMoT采用混合Transformer(MoT)架构,包含多个Transformer模块。整体流程为:首先,视觉输入和语言指令通过各自的编码器进行特征提取;然后,MoT模块利用联合注意力机制融合视觉和语言特征,进行场景理解和推理;最后,动作生成模块根据推理结果生成驾驶动作。异步执行机制允许不同任务以不同的频率执行,例如,场景理解可以以较低的频率执行,而动作生成则需要以较高的频率执行。

关键创新:AutoMoT的关键创新在于:1) 提出了统一的VLA模型,将推理和动作生成整合到一个模型中;2) 采用了混合Transformer(MoT)架构,通过联合注意力共享,保留了预训练VLM的通用推理能力;3) 引入了异步执行机制,实现了高效的快-慢推理,降低了推理延迟。

关键设计:MoT模块采用多头注意力机制,允许模型关注不同的视觉和语言特征。损失函数包括场景理解损失和动作生成损失,用于优化模型的场景理解和动作生成能力。异步执行机制通过设置不同的任务频率来实现,例如,场景理解任务的频率较低,而动作生成任务的频率较高。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AutoMoT在多个自动驾驶基准测试中取得了与最先进方法相比具有竞争力的性能。实验结果表明,预训练VLM仅通过语义提示即可实现具有竞争力的多任务场景理解性能,而微调对于决策和轨迹规划等动作级别任务仍然至关重要。项目主页提供了演示视频和定性结果,进一步展示了AutoMoT的优越性能。

🎯 应用场景

AutoMoT具有广泛的应用前景,可用于各种自动驾驶场景,包括城市道路、高速公路和越野环境。该研究的成果可以提升自动驾驶系统的安全性、可靠性和智能化水平,加速自动驾驶技术的商业化落地。此外,该方法还可以应用于机器人导航、智能交通管理等领域。

📄 摘要(原文)

Integrating vision-language models (VLMs) into end-to-end (E2E) autonomous driving (AD) systems has shown promise in improving scene understanding. However, existing integration strategies suffer from several limitations: they either struggle to resolve distribution misalignment between reasoning and action spaces, underexploit the general reasoning capabilities of pretrained VLMs, or incur substantial inference latency during action policy generation, which degrades driving performance. To address these challenges, we propose \OURS in this work, an end-to-end AD framework that unifies reasoning and action generation within a single vision-language-action (VLA) model. Our approach leverages a mixture-of-transformer (MoT) architecture with joint attention sharing, which preserves the general reasoning capabilities of pre-trained VLMs while enabling efficient fast-slow inference through asynchronous execution at different task frequencies. Extensive experiments on multiple benchmarks, under both open- and closed-loop settings, demonstrate that \OURS achieves competitive performance compared to state-of-the-art methods. We further investigate the functional boundary of pre-trained VLMs in AD, examining when AD-tailored fine-tuning is necessary. Our results show that pre-trained VLMs can achieve competitive multi-task scene understanding performance through semantic prompting alone, while fine-tuning remains essential for action-level tasks such as decision-making and trajectory planning. We refer to \href{https://automot-website.github.io/}{Project Page} for the demonstration videos and qualitative results.