Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving

作者: Pengxiang Li, Yinan Zheng, Yue Wang, Huimin Wang, Hang Zhao, Jingjing Liu, Xianyuan Zhan, Kun Zhan, Xianpeng Lang

分类: cs.RO, cs.AI, cs.CL

发布日期: 2025-09-24

💡 一句话要点

提出ReflectDrive，通过离散扩散和反射机制实现自动驾驶安全轨迹生成。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 轨迹规划 离散扩散 反射机制 安全驾驶 视觉语言动作模型 端到端学习

📋 核心要点

端到端视觉-语言-动作模型在自动驾驶中面临模仿学习的局限性，难以编码物理规则，需要复杂的后处理或依赖计算昂贵的扩散引导。
ReflectDrive通过离散化动作空间，利用预训练扩散语言模型进行轨迹规划，并引入无需梯度计算的安全感知反射机制进行迭代自校正。
在NAVSIM基准测试中，ReflectDrive在安全关键轨迹生成方面表现出显著优势，为自动驾驶系统提供了一种可扩展且可靠的解决方案。

📝 摘要（中文）

本文提出ReflectDrive，一种新型的基于学习的框架，它集成了反射机制，通过离散扩散实现安全轨迹生成。该方法首先离散化二维驾驶空间以构建动作代码本，从而能够通过微调将预训练的扩散语言模型用于规划任务。核心在于一种安全感知反射机制，该机制执行迭代自校正而无需梯度计算。该方法首先进行目标条件轨迹生成，以建模多模态驾驶行为。在此基础上，应用局部搜索方法来识别不安全token并确定可行的解决方案，然后将其用作基于修复的再生的安全锚点。在NAVSIM基准上的评估表明，ReflectDrive在安全关键轨迹生成方面具有显著优势，为自动驾驶系统提供了一种可扩展且可靠的解决方案。

🔬 方法详解

问题定义：现有端到端视觉-语言-动作模型在自动驾驶中受到模仿学习的限制，难以直接学习物理规则，导致生成的轨迹可能不安全。现有的改进方法，如基于规则的后处理、强化学习或扩散引导，要么过于复杂，要么计算成本高昂，难以实际应用。

核心思路：ReflectDrive的核心思路是将连续的驾驶空间离散化，构建一个动作代码本，然后利用预训练的扩散语言模型学习轨迹的生成。通过引入一个安全感知的反射机制，对生成的轨迹进行迭代的自校正，从而保证轨迹的安全性，同时避免了复杂的梯度计算。

技术框架：ReflectDrive框架主要包含以下几个阶段：1) 动作空间离散化：将二维驾驶空间离散化为动作代码本。2) 目标条件轨迹生成：利用扩散语言模型生成目标条件下的初始轨迹。3) 安全性评估与局部搜索：对生成的轨迹进行安全性评估，识别不安全的token，并使用局部搜索方法寻找可行的安全替代方案。4) 基于修复的轨迹再生：使用找到的安全替代方案作为锚点，利用扩散模型对轨迹进行修复和再生，得到最终的安全轨迹。

关键创新：ReflectDrive的关键创新在于其安全感知的反射机制，该机制通过迭代的自校正来保证轨迹的安全性，而无需进行复杂的梯度计算。这种方法不仅提高了效率，也使得模型更容易训练和部署。此外，将离散扩散模型应用于轨迹生成也是一个创新点，它允许利用预训练的语言模型知识来指导轨迹规划。

关键设计：动作空间的离散化粒度是一个关键参数，它直接影响到轨迹的精度和计算复杂度。安全性评估的标准需要根据具体的应用场景进行设计，例如可以考虑车辆之间的距离、道路边界等因素。局部搜索算法的选择也会影响到算法的效率和效果，例如可以使用A*算法或Dijkstra算法。扩散模型的具体结构和训练方式也会影响到轨迹生成的质量。

🖼️ 关键图片

📊 实验亮点

ReflectDrive在NAVSIM基准测试中表现出显著的优势。实验结果表明，ReflectDrive能够显著提高轨迹的安全性，减少碰撞的发生。与现有的基于模仿学习的方法相比，ReflectDrive在安全性方面有显著提升，同时保持了较高的轨迹生成效率。具体性能数据（例如碰撞率降低百分比）需要在论文中查找。

🎯 应用场景

ReflectDrive具有广泛的应用前景，可用于各种自动驾驶场景，例如城市道路、高速公路和停车场等。该方法可以提高自动驾驶系统的安全性和可靠性，减少交通事故的发生。此外，ReflectDrive还可以应用于机器人导航、游戏AI等领域，为这些领域提供更智能、更安全的运动规划能力。

📄 摘要（原文）

End-to-End (E2E) solutions have emerged as a mainstream approach for autonomous driving systems, with Vision-Language-Action (VLA) models representing a new paradigm that leverages pre-trained multimodal knowledge from Vision-Language Models (VLMs) to interpret and interact with complex real-world environments. However, these methods remain constrained by the limitations of imitation learning, which struggles to inherently encode physical rules during training. Existing approaches often rely on complex rule-based post-refinement, employ reinforcement learning that remains largely limited to simulation, or utilize diffusion guidance that requires computationally expensive gradient calculations. To address these challenges, we introduce ReflectDrive, a novel learning-based framework that integrates a reflection mechanism for safe trajectory generation via discrete diffusion. We first discretize the two-dimensional driving space to construct an action codebook, enabling the use of pre-trained Diffusion Language Models for planning tasks through fine-tuning. Central to our approach is a safety-aware reflection mechanism that performs iterative self-correction without gradient computation. Our method begins with goal-conditioned trajectory generation to model multi-modal driving behaviors. Based on this, we apply local search methods to identify unsafe tokens and determine feasible solutions, which then serve as safe anchors for inpainting-based regeneration. Evaluated on the NAVSIM benchmark, ReflectDrive demonstrates significant advantages in safety-critical trajectory generation, offering a scalable and reliable solution for autonomous driving systems.

Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理