DriveMA: Rethinking Language Interfaces in Driving VLAs with One-Step Meta-Actions

📄 arXiv: 2605.21273v1 📥 PDF

作者: Weicheng Zheng, Yixin Huang, Qiao Sun, Derun Li, Hang zhao

分类: cs.CV

发布日期: 2026-05-20


💡 一句话要点

DriveMA:用单步元动作重塑驾驶VLA中的语言接口

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉语言动作模型 元动作 强化学习 端到端学习

📋 核心要点

  1. 现有驾驶VLA模型依赖自然语言推理作为中间接口,面临推理标注难、长推理链处理难和推理延迟高等挑战。
  2. 论文提出DriveMA,使用简洁的单步元动作替代冗长的自然语言推理,实现语义决策并降低模型复杂度。
  3. 实验表明,DriveMA在Waymo和NAVSIM数据集上均取得SOTA性能,证明了单步元动作的有效性。

📝 摘要(中文)

驾驶视觉-语言-动作模型(Driving VLAs)通常引入自然语言推理作为端到端规划的中间接口,但以推理为中心的接口面临三个实际瓶颈:难以获得高质量的推理标注,紧凑模型难以生成和理解长推理链,以及推理延迟显著增加。本文重新思考了Driving VLAs中语言接口的设计,并表明简洁的单步元动作是冗长推理的一种简单而有效的替代方案。元动作提供语义决策基础,同时保持低熵,并且可以从专家轨迹自动导出,从而实现可扩展的监督和可靠的轨迹条件反射。基于此接口,我们提出了DriveMA,它结合了以动作为中心的监督训练和turn-level信用分配强化学习框架,该框架共同优化元动作的正确性、轨迹质量和轨迹-元动作一致性。实验表明,DriveMA在Waymo端到端驾驶挑战赛中,使用2B模型已经达到了新的state-of-the-art,Rater Feedback Score (RFS) 达到 8.060,而其4B版本进一步将state-of-the-art提高到 8.079;DriveMA还在NAVSIM上获得了有竞争力的性能。消融实验表明,与自然语言推理或更细粒度的动作序列相比,单步元动作在表达性、可预测性和推理效率之间提供了更好的实际折衷方案。代码、数据和模型将被发布,以促进未来的研究。

🔬 方法详解

问题定义:现有Driving VLA模型依赖自然语言推理作为中间接口,存在三个主要痛点:一是获取高质量的推理标注数据成本高昂;二是对于参数量较小的模型,生成和理解长推理链非常困难;三是自然语言推理过程引入了额外的计算开销,导致推理延迟显著增加。这些问题限制了Driving VLA模型在实际应用中的部署。

核心思路:论文的核心思路是用简洁的单步元动作(meta-actions)替代复杂的自然语言推理。元动作是对驾驶行为的高度抽象,例如“变道”、“跟随”等,它们既能表达语义信息,又具有低熵的特点,易于学习和预测。此外,元动作可以从专家驾驶轨迹中自动提取,无需人工标注,从而降低了数据获取成本。

技术框架:DriveMA的整体框架包含两个主要部分:一是基于监督学习的元动作预测模块,该模块根据视觉输入和历史轨迹预测当前时刻的元动作;二是基于强化学习的轨迹优化模块,该模块通过奖励函数评估轨迹质量,并利用策略梯度方法优化元动作序列,从而生成更安全、更高效的驾驶轨迹。这两个模块相互协作,共同提升驾驶性能。

关键创新:DriveMA的关键创新在于提出了单步元动作作为驾驶VLA模型的语言接口。与传统的自然语言推理相比,元动作更加简洁、高效,易于学习和预测。此外,DriveMA还提出了一个turn-level信用分配强化学习框架,该框架能够联合优化元动作的正确性、轨迹质量和轨迹-元动作一致性,从而进一步提升驾驶性能。

关键设计:DriveMA的关键设计包括:1) 元动作的定义:论文定义了一组涵盖常见驾驶行为的元动作,例如“变道”、“跟随”、“停车”等。2) 奖励函数的设计:论文设计了一个综合考虑安全性、效率和舒适性的奖励函数,用于评估驾驶轨迹的质量。3) 强化学习算法的选择:论文采用了策略梯度方法,并结合了turn-level信用分配机制,从而更有效地学习元动作序列。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DriveMA在Waymo End-to-End Driving Challenge上取得了显著的性能提升,使用2B模型达到了8.060的RFS,使用4B模型进一步提升至8.079,均超过了之前的state-of-the-art。此外,DriveMA在NAVSIM上也获得了具有竞争力的性能,证明了该方法的有效性和泛化能力。

🎯 应用场景

DriveMA的研究成果可应用于自动驾驶、辅助驾驶等领域。通过使用单步元动作作为语言接口,可以降低模型复杂度和推理延迟,提高自动驾驶系统的安全性和可靠性。此外,该方法还可以扩展到其他需要复杂决策的任务中,例如机器人导航、游戏AI等。

📄 摘要(原文)

Driving Vision-Language-Action Models (Driving VLAs) commonly introduce natural-language reasoning as an intermediate interface for end-to-end planning, but reasoning-centric interfaces face three practical bottlenecks: obtaining high-quality reasoning annotations is difficult, generating and understanding long reasoning chains is challenging for compact models, and inference latency is substantially increased. In this paper, we rethink the design of language interfaces in Driving VLAs and show that concise one-step meta-actions are a simple yet effective alternative to verbose reasoning. Meta-actions provide semantic decision grounding while remaining low-entropy, and being automatically derivable from expert trajectories, enabling scalable supervision and reliable trajectory conditioning. Building on this interface, we propose DriveMA, which combines action-centric supervised training with a turn-level credit-assignment reinforcement learning framework that jointly optimizes meta-action correctness, trajectory quality, and trajectory--meta-action consistency. Experiments show that DriveMA already achieves a new state of the art on the Waymo End-to-End Driving Challenge with a 2B model, reaching a Rater Feedback Score (RFS) of 8.060, while its 4B version further improves the state of the art to 8.079; DriveMA also obtains competitive performance on NAVSIM. Ablations demonstrate that one-step meta-actions offer a better practical trade-off between expressiveness, predictability, and inference efficiency than natural-language reasoning or finer-grained action sequences. Code, data, and models will be released to facilitate future research.