SpanVLA: Efficient Action Bridging and Learning from Negative-Recovery Samples for Vision-Language-Action Model
作者: Zewei Zhou, Ruining Yang, Xuewei, Qi, Yiluan Guo, Sherry X. Chen, Tao Feng, Kateryna Pistunova, Yishan Shen, Lili Su, Jiaqi Ma
分类: cs.CV
发布日期: 2026-04-21
备注: Project page: https://spanvla.github.io/
💡 一句话要点
SpanVLA:通过负样本恢复学习和高效动作桥接,提升视觉-语言-动作模型性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 自动驾驶 流匹配 负样本学习 鲁棒性 动作规划 推理 端到端学习
📋 核心要点
- 现有VLA模型在自动驾驶中面临动作生成延迟高和鲁棒性不足的挑战,尤其是在复杂和长尾场景下。
- SpanVLA通过引入高效的动作桥接机制和流匹配动作专家,显著降低了推理时间,提升了规划效率。
- 提出的GRPO后训练方法和mReasoning数据集,使模型能够从负样本中学习恢复策略,增强了模型的鲁棒性。
📝 摘要(中文)
视觉-语言-动作(VLA)模型为自动驾驶提供了一种有前景的范例,尤其是在长尾场景中,能够利用世界知识和推理能力。然而,现有的VLA模型通常在动作生成方面面临高延迟问题(由于自回归生成框架),并且鲁棒性有限。本文提出了SpanVLA,一种新颖的端到端自动驾驶框架,集成了自回归推理和流匹配动作专家。SpanVLA首先引入了一个高效的桥接机制,利用VLM的视觉和推理指导,通过基于历史轨迹初始化的流匹配策略高效地规划未来轨迹,从而显著减少推理时间。其次,为了进一步提高SpanVLA模型的性能和鲁棒性,我们提出了一种基于GRPO的后训练方法,使VLA模型不仅能从积极的驾驶样本中学习,还能学习如何避免典型的消极行为和学习恢复行为。我们还引入了一个新的真实世界驾驶推理数据集mReasoning,专注于复杂的、需要推理的场景和负样本恢复。在NAVSIM(v1和v2)上的大量实验证明了SpanVLA模型的竞争性能。此外,各种场景下的定性结果突出了我们模型的规划性能和鲁棒性。
🔬 方法详解
问题定义:现有VLA模型在自动驾驶任务中,特别是复杂场景下,存在动作生成延迟高的问题,这主要是由于它们采用自回归生成框架。此外,这些模型的鲁棒性也有限,难以应对各种突发情况,缺乏从失败中学习和恢复的能力。
核心思路:SpanVLA的核心思路是结合自回归推理和流匹配动作专家,以实现高效的动作规划。通过引入一个高效的桥接机制,利用视觉-语言模型(VLM)的推理能力来指导流匹配策略,从而减少推理时间。同时,通过GRPO后训练方法,使模型能够从负样本中学习,提高鲁棒性和恢复能力。
技术框架:SpanVLA框架包含以下主要模块:1) 视觉-语言模型(VLM):用于理解场景信息和进行推理。2) 动作桥接模块:将VLM的推理结果转化为动作规划的指导信息。3) 流匹配动作专家:基于历史轨迹初始化和VLM的指导,生成未来轨迹。4) GRPO后训练模块:通过正负样本学习,提高模型的鲁棒性和恢复能力。整个流程是端到端的,从视觉输入到动作输出。
关键创新:SpanVLA的关键创新在于:1) 高效的动作桥接机制,利用流匹配策略显著降低了动作生成延迟。2) 基于GRPO的后训练方法,使模型能够从负样本中学习恢复策略,提高了鲁棒性。3) 新的真实世界驾驶推理数据集mReasoning,专注于复杂的、需要推理的场景和负样本恢复。
关键设计:GRPO后训练方法的设计是关键。它通过引入负样本和恢复样本,让模型学习如何避免不良行为,并在出现问题时进行恢复。具体的损失函数设计需要平衡正样本、负样本和恢复样本之间的权重。此外,流匹配动作专家的网络结构和训练方式也需要仔细设计,以保证生成轨迹的平滑性和准确性。
🖼️ 关键图片
📊 实验亮点
SpanVLA在NAVSIM v1和v2数据集上进行了广泛的实验,结果表明其性能具有竞争力。定性结果也展示了SpanVLA在各种复杂场景下的优秀规划能力和鲁棒性。特别是在需要推理和从错误中恢复的场景中,SpanVLA表现出显著的优势,验证了其负样本学习方法的有效性。具体性能数据和对比基线的详细信息在论文中给出。
🎯 应用场景
SpanVLA的研究成果可应用于自动驾驶汽车、无人配送车、智能机器人等领域。通过提高自动驾驶系统的效率和鲁棒性,可以降低交通事故率,提升交通效率,并为人们提供更安全、便捷的出行体验。此外,该研究提出的负样本学习方法也可以推广到其他人工智能领域,例如机器人控制、游戏AI等。
📄 摘要(原文)
Vision-Language-Action (VLA) models offer a promising autonomous driving paradigm for leveraging world knowledge and reasoning capabilities, especially in long-tail scenarios. However, existing VLA models often struggle with the high latency in action generation using an autoregressive generation framework and exhibit limited robustness. In this paper, we propose SpanVLA, a novel end-to-end autonomous driving framework, integrating an autoregressive reasoning and a flow-matching action expert. First, SpanVLA introduces an efficient bridge to leverage the vision and reasoning guidance of VLM to efficiently plan future trajectories using a flow-matching policy conditioned on historical trajectory initialization, which significantly reduces inference time. Second, to further improve the performance and robustness of the SpanVLA model, we propose a GRPO-based post-training method to enable the VLA model not only to learn from positive driving samples but also to learn how to avoid the typical negative behaviors and learn recovery behaviors. We further introduce mReasoning, a new real-world driving reasoning dataset, focusing on complex, reasoning-demanding scenarios and negative-recovery samples. Extensive experiments on the NAVSIM (v1 and v2) demonstrate the competitive performance of the SpanVLA model. Additionally, the qualitative results across diverse scenarios highlight the planning performance and robustness of our model.