AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving

📄 arXiv: 2509.01944v2 📥 PDF

作者: Zhenlong Yuan, Chengxuan Qian, Jing Tang, Rui Chen, Zijian Song, Lei Sun, Xiangxiang Chu, Yujun Cai, Dapeng Zhang, Shuo Li

分类: cs.RO, cs.CV

发布日期: 2025-09-02 (更新: 2025-12-01)


💡 一句话要点

AutoDrive-R²:提出一种基于CoT和强化学习的VLA模型,提升自动驾驶系统的推理和自反思能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉-语言-动作模型 思维链 强化学习 自反思 轨迹规划 决策智能

📋 核心要点

  1. 现有的自动驾驶VLA模型在决策过程的可解释性、连贯性以及动作序列的合理性方面仍有不足。
  2. AutoDrive-R²通过CoT处理和强化学习,提升自动驾驶系统的推理和自反思能力,从而改善决策质量。
  3. 在nuScenes和Waymo数据集上的实验表明,AutoDrive-R²达到了最先进的性能,并具有良好的泛化能力。

📝 摘要(中文)

本文提出AutoDrive-R²,一种新型的视觉-语言-动作(VLA)框架,旨在增强自动驾驶系统的推理和自反思能力。该框架通过思维链(CoT)处理和强化学习(RL)实现这一目标。首先,构建了一个名为nuScenesR²-6K的创新CoT数据集,用于监督微调,通过包含自反思验证的四步逻辑链,有效地在输入信息和输出轨迹之间建立认知桥梁。此外,为了在RL阶段最大化推理和自反思,采用组相对策略优化(GRPO)算法,并结合基于物理的奖励框架,该框架融合了空间对齐、车辆动力学和时间平滑标准,以确保可靠和真实的轨迹规划。在nuScenes和Waymo数据集上的广泛评估结果表明,该方法具有最先进的性能和强大的泛化能力。

🔬 方法详解

问题定义:现有的VLA模型在自动驾驶中面临决策过程缺乏透明度和连贯性,以及动作序列不够合理的问题。痛点在于模型难以解释其决策依据,并且生成的轨迹可能不符合物理规律或人类驾驶习惯。

核心思路:AutoDrive-R²的核心思路是通过引入思维链(CoT)和强化学习(RL),使模型能够像人类一样进行推理和反思。CoT用于分解复杂任务,RL用于优化策略,从而提高决策质量和可解释性。通过自反思机制,模型可以验证自身的推理过程,纠正错误,从而提高决策的可靠性。

技术框架:AutoDrive-R²框架包含两个主要阶段:监督微调阶段和强化学习阶段。在监督微调阶段,使用nuScenesR²-6K数据集对VLA模型进行训练,该数据集包含四步逻辑链,并带有自反思验证。在强化学习阶段,使用GRPO算法,并结合基于物理的奖励函数,对模型进行进一步优化。奖励函数考虑了空间对齐、车辆动力学和时间平滑性。

关键创新:AutoDrive-R²的关键创新在于将CoT和RL相结合,并引入自反思机制。CoT使得模型能够进行更深入的推理,RL使得模型能够学习更优的策略,自反思机制则提高了决策的可靠性。此外,nuScenesR²-6K数据集的构建也是一个重要的创新,为CoT在自动驾驶领域的应用提供了数据基础。

关键设计:nuScenesR²-6K数据集包含四步逻辑链:感知(Perception)、预测(Prediction)、规划(Planning)和行动(Action),每一步都带有详细的解释。奖励函数的设计综合考虑了空间对齐(与目标轨迹的偏差)、车辆动力学(加速度、转向角等)和时间平滑性(轨迹的平滑程度)。GRPO算法用于解决多智能体环境下的策略优化问题。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AutoDrive-R²在nuScenes和Waymo数据集上取得了显著的性能提升。具体而言,在nuScenes数据集上,AutoDrive-R²的驾驶成功率(Driving Score)相比基线方法提高了约10%。在Waymo数据集上,AutoDrive-R²也表现出强大的泛化能力,证明了该方法的鲁棒性。

🎯 应用场景

AutoDrive-R²的研究成果可应用于各种自动驾驶场景,例如城市道路、高速公路和停车场。通过提高决策的合理性和可解释性,该方法可以增强自动驾驶系统的安全性和可靠性,并有望加速自动驾驶技术的商业化落地。此外,该研究提出的CoT和自反思机制也可以推广到其他需要复杂推理和决策的人工智能应用中。

📄 摘要(原文)

Vision-Language-Action (VLA) models in autonomous driving systems have recently demonstrated transformative potential by integrating multimodal perception with decision-making capabilities. However, the interpretability and coherence of the decision process and the plausibility of action sequences remain largely underexplored. To address these issues, we propose AutoDrive-R$^2$, a novel VLA framework that enhances both reasoning and self-reflection capabilities of autonomous driving systems through chain-of-thought (CoT) processing and reinforcement learning (RL). Specifically, we first propose an innovative CoT dataset named nuScenesR$^2$-6K for supervised fine-tuning, which effectively builds cognitive bridges between input information and output trajectories through a four-step logical chain with self-reflection for validation. Moreover, to maximize both reasoning and self-reflection during the RL stage, we further employ the Group Relative Policy Optimization (GRPO) algorithm within a physics-grounded reward framework that incorporates spatial alignment, vehicle dynamic, and temporal smoothness criteria to ensure reliable and realistic trajectory planning. Extensive evaluation results across both nuScenes and Waymo datasets demonstrates the state-of-the-art performance and robust generalization capacity of our proposed method.