WAM-Flow: Parallel Coarse-to-Fine Motion Planning via Discrete Flow Matching for Autonomous Driving

📄 arXiv: 2512.06112v2 📥 PDF

作者: Yifang Xu, Jiahao Cui, Feipeng Cai, Zhihao Zhu, Hanlin Shang, Shan Luan, Mingwang Xu, Neng Zhang, Yaoyi Li, Jia Cai, Siyu Zhu

分类: cs.RO, cs.AI, cs.CV

发布日期: 2025-12-05 (更新: 2025-12-11)

备注: 18 pages, 11 figures. Code & Model: https://github.com/fudan-generative-vision/WAM-Flow


💡 一句话要点

提出WAM-Flow,通过离散流匹配实现自动驾驶并行粗到精运动规划。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 轨迹规划 流匹配 视觉语言动作模型 并行计算

📋 核心要点

  1. 现有自回归模型在轨迹规划中存在推理速度慢、难以进行粗到精细化调整的问题。
  2. WAM-Flow通过离散流匹配,实现轨迹规划的并行双向去噪,从而加速推理并支持粗到精细化调整。
  3. 实验表明,WAM-Flow在闭环性能上优于自回归和基于扩散的模型,并在NAVSIM v1上取得了显著的PDMS提升。

📝 摘要(中文)

本文介绍了一种视觉-语言-动作(VLA)模型WAM-Flow,它将自车轨迹规划视为结构化token空间上的离散流匹配问题。与自回归解码器不同,WAM-Flow执行完全并行的双向去噪,从而实现具有可调计算-精度权衡的粗到精细化。具体来说,该方法结合了通过三元组边际学习保持标量几何的度量对齐数值分词器、几何感知流目标以及模拟器引导的GRPO对齐,该对齐集成了安全性、自车进度和舒适性奖励,同时保留了并行生成。多阶段自适应将预训练的自回归骨干网络(Janus-1.5B)从因果解码转换为非因果流模型,并通过持续的多模态预训练来加强道路场景能力。由于一致性模型训练和并行解码推理的固有特性,WAM-Flow在闭环性能方面优于自回归和基于扩散的VLA基线,在NAVSIM v1基准测试中,单步推理达到89.1 PDMS,五步推理达到90.3 PDMS。这些结果表明离散流匹配是端到端自动驾驶的一个新的有希望的范例。代码即将公开。

🔬 方法详解

问题定义:论文旨在解决端到端自动驾驶中轨迹规划的效率和精度问题。现有的自回归模型通常采用串行解码方式,推理速度较慢,难以满足实时性要求。此外,这些模型难以进行粗到精的轨迹优化,限制了其在复杂场景下的性能。

核心思路:论文的核心思路是将轨迹规划问题转化为离散流匹配问题,并利用流匹配模型的并行解码能力来加速推理过程。通过设计合适的token空间和流目标,模型可以同时预测多个轨迹点,从而实现高效的轨迹生成。此外,该方法还引入了粗到精的优化策略,允许模型在不同阶段关注不同尺度的轨迹细节。

技术框架:WAM-Flow的整体框架包括以下几个主要模块:1) 度量对齐数值分词器:将连续的轨迹数据转换为离散的token序列,并保留几何信息。2) 几何感知流目标:设计损失函数,引导模型学习轨迹的几何约束。3) 模拟器引导的GRPO对齐:利用模拟器数据,优化模型的安全性、自车进度和舒适性。4) 多阶段自适应:将预训练的自回归模型转换为流模型,并进行多模态预训练。

关键创新:该论文的关键创新在于将离散流匹配引入到自动驾驶轨迹规划中。与传统的自回归模型相比,流匹配模型具有并行解码的优势,可以显著提高推理速度。此外,该方法还提出了一种新的度量对齐数值分词器和几何感知流目标,能够更好地保留轨迹的几何信息。

关键设计:论文中一些关键的设计包括:1) 使用三元组边际学习来训练数值分词器,以确保token空间的度量一致性。2) 设计几何感知流目标,鼓励模型学习轨迹的平滑性和可行驶性。3) 利用模拟器数据进行GRPO对齐,以提高模型的安全性和舒适性。4) 采用多阶段自适应策略,将预训练的自回归模型转换为流模型,并进行多模态预训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

WAM-Flow在NAVSIM v1基准测试中取得了显著的性能提升。单步推理达到89.1 PDMS,五步推理达到90.3 PDMS,优于自回归和基于扩散的VLA基线。这些结果表明离散流匹配在端到端自动驾驶轨迹规划方面具有巨大的潜力。

🎯 应用场景

WAM-Flow具有广泛的应用前景,可用于各种自动驾驶场景,包括城市道路、高速公路和越野环境。该方法可以提高自动驾驶系统的决策效率和安全性,并为实现更高级别的自动驾驶提供技术支持。此外,该方法还可以应用于机器人导航、游戏AI等领域。

📄 摘要(原文)

We introduce WAM-Flow, a vision-language-action (VLA) model that casts ego-trajectory planning as discrete flow matching over a structured token space. In contrast to autoregressive decoders, WAM-Flow performs fully parallel, bidirectional denoising, enabling coarse-to-fine refinement with a tunable compute-accuracy trade-off. Specifically, the approach combines a metric-aligned numerical tokenizer that preserves scalar geometry via triplet-margin learning, a geometry-aware flow objective and a simulator-guided GRPO alignment that integrates safety, ego progress, and comfort rewards while retaining parallel generation. A multi-stage adaptation converts a pre-trained auto-regressive backbone (Janus-1.5B) from causal decoding to non-causal flow model and strengthens road-scene competence through continued multimodal pretraining. Thanks to the inherent nature of consistency model training and parallel decoding inference, WAM-Flow achieves superior closed-loop performance against autoregressive and diffusion-based VLA baselines, with 1-step inference attaining 89.1 PDMS and 5-step inference reaching 90.3 PDMS on NAVSIM v1 benchmark. These results establish discrete flow matching as a new promising paradigm for end-to-end autonomous driving. The code will be publicly available soon.