DriveMA: Driving Vision-Language-Action Models with verifiable Meta-Actions

作者: Weicheng Zheng, Yixin Huang, Qiao Sun, Derun Li, Hang Zhao

分类: cs.CV

发布日期: 2026-05-29

备注: arXiv admin note: text overlap with arXiv:2605.21273

💡 一句话要点

DriveMA：通过可验证的元动作驱动自动驾驶视觉-语言-动作模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉语言动作模型 端到端规划 元动作 强化学习

📋 核心要点

现有Driving VLA模型受限于语言-动作之间的鸿沟，难以有效利用语言信息提升端到端规划性能。
DriveMA通过引入可验证的元动作，将未来自我运动总结为紧凑的语言意图，从而弥合语言和动作之间的差距。
实验表明，DriveMA在Waymo开放数据集上取得了SOTA性能，并在NAVSIM上实现了有竞争力的闭环规划效果。

📝 摘要（中文）

本文提出DriveMA，一个基于可验证元动作的自动驾驶视觉-语言-动作（Driving VLA）框架，旨在利用语言来改进端到端规划。元动作将未来的自我运动总结为紧凑的语言领域意图，可以通过轨迹对齐的标注流程从专家轨迹构建，并且可以通过基于规则的投影针对生成的轨迹进行验证。DriveMA通过以动作为中心的监督训练和数据高效的turn-level信用分配强化学习框架来利用这种可验证性，通过密集奖励和精确的信用分配，显式地将高层决策与低层轨迹规划对齐。DriveMA在Waymo开放数据集的基于视觉的端到端驾驶任务上取得了新的state-of-the-art，使用2B模型达到了8.060的Rater Feedback Score，并使用4B模型进一步提高到8.079；它还在NAVSIM上获得了具有竞争力的闭环规划性能。这些结果表明，即使是一个简单的元动作接口，在可验证并针对语言-动作对齐进行优化时，也可以实现最先进的规划。代码、数据和模型将被发布，以促进未来的研究。

🔬 方法详解

问题定义：现有的Driving VLA模型难以有效利用语言信息，主要痛点在于语言和动作之间存在较大的语义鸿沟。模型难以将高层次的语言指令准确地转化为低层次的车辆控制动作，导致规划性能受限。

核心思路：DriveMA的核心思路是引入“元动作”的概念，将一系列连续的车辆控制动作抽象成一个高级别的、可验证的语言描述。通过这种方式，将复杂的动作空间简化为更易于理解和控制的元动作空间，从而缩小语言和动作之间的差距。同时，利用元动作的可验证性，可以对模型的输出进行约束和纠正，提高规划的可靠性。

技术框架：DriveMA框架包含以下几个主要模块：1) 轨迹对齐的标注流程，用于从专家轨迹中构建元动作；2) 基于规则的投影模块，用于验证生成的轨迹是否符合元动作的约束；3) 以动作为中心的监督训练模块，用于学习元动作的预测；4) 数据高效的turn-level信用分配强化学习模块，用于优化高层决策和低层轨迹规划的对齐。整体流程是，首先利用视觉和语言信息预测元动作，然后根据元动作生成轨迹，最后通过验证模块对轨迹进行评估和修正。

关键创新：DriveMA最重要的技术创新点在于引入了可验证的元动作。与传统的直接预测车辆控制信号的方法不同，DriveMA通过预测高级别的元动作，将规划问题分解为两个子问题：元动作预测和轨迹生成。这种分解方式降低了问题的复杂度，并且使得模型更容易学习和理解语言指令。此外，元动作的可验证性也为模型的训练和优化提供了额外的约束和反馈。

关键设计：在元动作的构建方面，论文采用轨迹对齐的标注流程，确保元动作能够准确地反映车辆的运动意图。在损失函数方面，论文采用了以动作为中心的监督训练损失和turn-level信用分配强化学习损失，前者用于学习元动作的预测，后者用于优化高层决策和低层轨迹规划的对齐。在网络结构方面，论文采用了Transformer架构，用于处理视觉和语言信息，并预测元动作。

🖼️ 关键图片

📊 实验亮点

DriveMA在Waymo开放数据集的基于视觉的端到端驾驶任务上取得了显著的性能提升，Rater Feedback Score从之前的最佳水平提升到了8.060（2B模型）和8.079（4B模型）。此外，DriveMA还在NAVSIM上获得了具有竞争力的闭环规划性能，证明了其在实际场景中的有效性。

🎯 应用场景

DriveMA的研究成果可以应用于自动驾驶、辅助驾驶等领域，提高车辆的智能化水平和安全性。通过引入可验证的元动作，可以使自动驾驶系统更好地理解人类指令，并生成更加合理和可靠的行驶轨迹。未来，该技术还可以扩展到其他机器人领域，例如无人机、服务机器人等。

📄 摘要（原文）

Driving Vision-Language-Action Models (Driving VLAs) aim to use language to improve end-to-end planning, but the language-action gap limits this promise. We propose DriveMA, a Driving VLA framework built on verifiable meta-actions, which summarize future ego motion into compact language-domain intentions and can be constructed from expert trajectories with a trajectory-grounded annotation pipeline and can be verified against generated trajectories through rule-based projection. DriveMA exploits this verifiability with action-centric supervised training and a data-efficient turn-level credit assignment reinforcement learning framework, explicitly aligning high-level decisions with low-level trajectory planning through dense rewards and precise credit assignment. DriveMA sets a new state of the art on the Waymo Open Dataset Vision-based E2E Driving, achieving a Rater Feedback Score of 8.060 with a 2B model and further improving it to 8.079 with a 4B model; it also obtains competitive closed-loop planning performance on NAVSIM. These results show that even a simple meta-action interface can achieve state-of-the-art planning when made verifiable and optimized for language-action alignment. Code, data, and models will be released to facilitate future research.

DriveMA: Driving Vision-Language-Action Models with verifiable Meta-Actions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理