Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving

📄 arXiv: 2509.20109v1 📥 PDF

作者: Pengxiang Li, Yinan Zheng, Yue Wang, Huimin Wang, Hang Zhao, Jingjing Liu, Xianyuan Zhan, Kun Zhan, Xianpeng Lang

分类: cs.RO, cs.AI, cs.CL

发布日期: 2025-09-24


💡 一句话要点

提出ReflectDrive,通过离散扩散和反射机制实现自动驾驶安全轨迹生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 轨迹规划 离散扩散 反射机制 安全驾驶 视觉语言动作模型 端到端学习

📋 核心要点

  1. 端到端视觉-语言-动作模型在自动驾驶中面临模仿学习的局限性,难以编码物理规则,需要复杂的后处理或依赖计算昂贵的扩散引导。
  2. ReflectDrive通过离散化动作空间,利用预训练扩散语言模型进行轨迹规划,并引入无需梯度计算的安全感知反射机制进行迭代自校正。
  3. 在NAVSIM基准测试中,ReflectDrive在安全关键轨迹生成方面表现出显著优势,为自动驾驶系统提供了一种可扩展且可靠的解决方案。

📝 摘要(中文)

本文提出ReflectDrive,一种新型的基于学习的框架,它集成了反射机制,通过离散扩散实现安全轨迹生成。该方法首先离散化二维驾驶空间以构建动作代码本,从而能够通过微调将预训练的扩散语言模型用于规划任务。核心在于一种安全感知反射机制,该机制执行迭代自校正而无需梯度计算。该方法首先进行目标条件轨迹生成,以建模多模态驾驶行为。在此基础上,应用局部搜索方法来识别不安全token并确定可行的解决方案,然后将其用作基于修复的再生的安全锚点。在NAVSIM基准上的评估表明,ReflectDrive在安全关键轨迹生成方面具有显著优势,为自动驾驶系统提供了一种可扩展且可靠的解决方案。

🔬 方法详解

问题定义:现有端到端视觉-语言-动作模型在自动驾驶中受到模仿学习的限制,难以直接学习物理规则,导致生成的轨迹可能不安全。现有的改进方法,如基于规则的后处理、强化学习或扩散引导,要么过于复杂,要么计算成本高昂,难以实际应用。

核心思路:ReflectDrive的核心思路是将连续的驾驶空间离散化,构建一个动作代码本,然后利用预训练的扩散语言模型学习轨迹的生成。通过引入一个安全感知的反射机制,对生成的轨迹进行迭代的自校正,从而保证轨迹的安全性,同时避免了复杂的梯度计算。

技术框架:ReflectDrive框架主要包含以下几个阶段:1) 动作空间离散化:将二维驾驶空间离散化为动作代码本。2) 目标条件轨迹生成:利用扩散语言模型生成目标条件下的初始轨迹。3) 安全性评估与局部搜索:对生成的轨迹进行安全性评估,识别不安全的token,并使用局部搜索方法寻找可行的安全替代方案。4) 基于修复的轨迹再生:使用找到的安全替代方案作为锚点,利用扩散模型对轨迹进行修复和再生,得到最终的安全轨迹。

关键创新:ReflectDrive的关键创新在于其安全感知的反射机制,该机制通过迭代的自校正来保证轨迹的安全性,而无需进行复杂的梯度计算。这种方法不仅提高了效率,也使得模型更容易训练和部署。此外,将离散扩散模型应用于轨迹生成也是一个创新点,它允许利用预训练的语言模型知识来指导轨迹规划。

关键设计:动作空间的离散化粒度是一个关键参数,它直接影响到轨迹的精度和计算复杂度。安全性评估的标准需要根据具体的应用场景进行设计,例如可以考虑车辆之间的距离、道路边界等因素。局部搜索算法的选择也会影响到算法的效率和效果,例如可以使用A*算法或Dijkstra算法。扩散模型的具体结构和训练方式也会影响到轨迹生成的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReflectDrive在NAVSIM基准测试中表现出显著的优势。实验结果表明,ReflectDrive能够显著提高轨迹的安全性,减少碰撞的发生。与现有的基于模仿学习的方法相比,ReflectDrive在安全性方面有显著提升,同时保持了较高的轨迹生成效率。具体性能数据(例如碰撞率降低百分比)需要在论文中查找。

🎯 应用场景

ReflectDrive具有广泛的应用前景,可用于各种自动驾驶场景,例如城市道路、高速公路和停车场等。该方法可以提高自动驾驶系统的安全性和可靠性,减少交通事故的发生。此外,ReflectDrive还可以应用于机器人导航、游戏AI等领域,为这些领域提供更智能、更安全的运动规划能力。

📄 摘要(原文)

End-to-End (E2E) solutions have emerged as a mainstream approach for autonomous driving systems, with Vision-Language-Action (VLA) models representing a new paradigm that leverages pre-trained multimodal knowledge from Vision-Language Models (VLMs) to interpret and interact with complex real-world environments. However, these methods remain constrained by the limitations of imitation learning, which struggles to inherently encode physical rules during training. Existing approaches often rely on complex rule-based post-refinement, employ reinforcement learning that remains largely limited to simulation, or utilize diffusion guidance that requires computationally expensive gradient calculations. To address these challenges, we introduce ReflectDrive, a novel learning-based framework that integrates a reflection mechanism for safe trajectory generation via discrete diffusion. We first discretize the two-dimensional driving space to construct an action codebook, enabling the use of pre-trained Diffusion Language Models for planning tasks through fine-tuning. Central to our approach is a safety-aware reflection mechanism that performs iterative self-correction without gradient computation. Our method begins with goal-conditioned trajectory generation to model multi-modal driving behaviors. Based on this, we apply local search methods to identify unsafe tokens and determine feasible solutions, which then serve as safe anchors for inpainting-based regeneration. Evaluated on the NAVSIM benchmark, ReflectDrive demonstrates significant advantages in safety-critical trajectory generation, offering a scalable and reliable solution for autonomous driving systems.