DriveMA: Driving Vision-Language-Action Models with verifiable Meta-Actions

📄 arXiv: 2605.31271v1 📥 PDF

作者: Weicheng Zheng, Yixin Huang, Qiao Sun, Derun Li, Hang Zhao

分类: cs.CV

发布日期: 2026-05-29

备注: arXiv admin note: text overlap with arXiv:2605.21273


💡 一句话要点

DriveMA:通过可验证的元动作驱动自动驾驶视觉-语言-动作模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉语言动作模型 端到端规划 元动作 强化学习

📋 核心要点

  1. 现有Driving VLA模型受限于语言-动作之间的鸿沟,难以有效利用语言信息提升端到端规划性能。
  2. DriveMA通过引入可验证的元动作,将未来自我运动总结为紧凑的语言意图,从而弥合语言和动作之间的差距。
  3. 实验表明,DriveMA在Waymo开放数据集上取得了SOTA性能,并在NAVSIM上实现了有竞争力的闭环规划效果。

📝 摘要(中文)

本文提出DriveMA,一个基于可验证元动作的自动驾驶视觉-语言-动作(Driving VLA)框架,旨在利用语言来改进端到端规划。元动作将未来的自我运动总结为紧凑的语言领域意图,可以通过轨迹对齐的标注流程从专家轨迹构建,并且可以通过基于规则的投影针对生成的轨迹进行验证。DriveMA通过以动作为中心的监督训练和数据高效的turn-level信用分配强化学习框架来利用这种可验证性,通过密集奖励和精确的信用分配,显式地将高层决策与低层轨迹规划对齐。DriveMA在Waymo开放数据集的基于视觉的端到端驾驶任务上取得了新的state-of-the-art,使用2B模型达到了8.060的Rater Feedback Score,并使用4B模型进一步提高到8.079;它还在NAVSIM上获得了具有竞争力的闭环规划性能。这些结果表明,即使是一个简单的元动作接口,在可验证并针对语言-动作对齐进行优化时,也可以实现最先进的规划。代码、数据和模型将被发布,以促进未来的研究。

🔬 方法详解

问题定义:现有的Driving VLA模型难以有效利用语言信息,主要痛点在于语言和动作之间存在较大的语义鸿沟。模型难以将高层次的语言指令准确地转化为低层次的车辆控制动作,导致规划性能受限。

核心思路:DriveMA的核心思路是引入“元动作”的概念,将一系列连续的车辆控制动作抽象成一个高级别的、可验证的语言描述。通过这种方式,将复杂的动作空间简化为更易于理解和控制的元动作空间,从而缩小语言和动作之间的差距。同时,利用元动作的可验证性,可以对模型的输出进行约束和纠正,提高规划的可靠性。

技术框架:DriveMA框架包含以下几个主要模块:1) 轨迹对齐的标注流程,用于从专家轨迹中构建元动作;2) 基于规则的投影模块,用于验证生成的轨迹是否符合元动作的约束;3) 以动作为中心的监督训练模块,用于学习元动作的预测;4) 数据高效的turn-level信用分配强化学习模块,用于优化高层决策和低层轨迹规划的对齐。整体流程是,首先利用视觉和语言信息预测元动作,然后根据元动作生成轨迹,最后通过验证模块对轨迹进行评估和修正。

关键创新:DriveMA最重要的技术创新点在于引入了可验证的元动作。与传统的直接预测车辆控制信号的方法不同,DriveMA通过预测高级别的元动作,将规划问题分解为两个子问题:元动作预测和轨迹生成。这种分解方式降低了问题的复杂度,并且使得模型更容易学习和理解语言指令。此外,元动作的可验证性也为模型的训练和优化提供了额外的约束和反馈。

关键设计:在元动作的构建方面,论文采用轨迹对齐的标注流程,确保元动作能够准确地反映车辆的运动意图。在损失函数方面,论文采用了以动作为中心的监督训练损失和turn-level信用分配强化学习损失,前者用于学习元动作的预测,后者用于优化高层决策和低层轨迹规划的对齐。在网络结构方面,论文采用了Transformer架构,用于处理视觉和语言信息,并预测元动作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DriveMA在Waymo开放数据集的基于视觉的端到端驾驶任务上取得了显著的性能提升,Rater Feedback Score从之前的最佳水平提升到了8.060(2B模型)和8.079(4B模型)。此外,DriveMA还在NAVSIM上获得了具有竞争力的闭环规划性能,证明了其在实际场景中的有效性。

🎯 应用场景

DriveMA的研究成果可以应用于自动驾驶、辅助驾驶等领域,提高车辆的智能化水平和安全性。通过引入可验证的元动作,可以使自动驾驶系统更好地理解人类指令,并生成更加合理和可靠的行驶轨迹。未来,该技术还可以扩展到其他机器人领域,例如无人机、服务机器人等。

📄 摘要(原文)

Driving Vision-Language-Action Models (Driving VLAs) aim to use language to improve end-to-end planning, but the language-action gap limits this promise. We propose DriveMA, a Driving VLA framework built on verifiable meta-actions, which summarize future ego motion into compact language-domain intentions and can be constructed from expert trajectories with a trajectory-grounded annotation pipeline and can be verified against generated trajectories through rule-based projection. DriveMA exploits this verifiability with action-centric supervised training and a data-efficient turn-level credit assignment reinforcement learning framework, explicitly aligning high-level decisions with low-level trajectory planning through dense rewards and precise credit assignment. DriveMA sets a new state of the art on the Waymo Open Dataset Vision-based E2E Driving, achieving a Rater Feedback Score of 8.060 with a 2B model and further improving it to 8.079 with a 4B model; it also obtains competitive closed-loop planning performance on NAVSIM. These results show that even a simple meta-action interface can achieve state-of-the-art planning when made verifiable and optimized for language-action alignment. Code, data, and models will be released to facilitate future research.