Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail

📄 arXiv: 2511.00088v1 📥 PDF

作者: NVIDIA, :, Yan Wang, Wenjie Luo, Junjie Bai, Yulong Cao, Tong Che, Ke Chen, Yuxiao Chen, Jenna Diamond, Yifan Ding, Wenhao Ding, Liang Feng, Greg Heinrich, Jack Huang, Peter Karkus, Boyi Li, Pinyi Li, Tsung-Yi Lin, Dongran Liu, Ming-Yu Liu, Langechuan Liu, Zhijian Liu, Jason Lu, Yunxiang Mao, Pavlo Molchanov, Lindsey Pavao, Zhenghao Peng, Mike Ranzinger, Ed Schmerling, Shida Shen, Yunfei Shi, Sarah Tariq, Ran Tian, Tilman Wekel, Xinshuo Weng, Tianjun Xiao, Eric Yang, Xiaodong Yang, Yurong You, Xiaohui Zeng, Wenyuan Zhang, Boris Ivanovic, Marco Pavone

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-10-30


💡 一句话要点

提出Alpamayo-R1,通过因果推理和轨迹规划提升长尾场景下自动驾驶的泛化能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 因果推理 轨迹规划 视觉语言模型 强化学习 长尾场景 模仿学习

📋 核心要点

  1. 现有端到端自动驾驶方法在长尾场景中表现不佳,原因是监督数据稀疏且缺乏因果理解。
  2. Alpamayo-R1通过结合因果链推理和轨迹规划,提升复杂场景下的决策能力和泛化性。
  3. 实验表明,AR1在规划准确率、脱离道路率和近距离遭遇率方面均有显著提升,并验证了实时性能。

📝 摘要(中文)

本文提出Alpamayo-R1 (AR1),一个视觉-语言-动作模型(VLA),它将因果链推理与轨迹规划相结合,以增强复杂驾驶场景中的决策能力。该方法包含三个关键创新:(1) 因果链(CoC)数据集,通过混合自动标注和人工参与流程构建,产生决策驱动的、因果关联的推理轨迹,与驾驶行为对齐;(2) 模块化的VLA架构,结合了为物理AI应用预训练的视觉-语言模型Cosmos-Reason,以及基于扩散的轨迹解码器,该解码器实时生成动态可行的规划;(3) 多阶段训练策略,使用监督微调来引发推理,并使用强化学习(RL)通过大型推理模型反馈来优化推理质量,并强制执行推理-动作一致性。评估表明,与仅轨迹的基线相比,AR1在具有挑战性的案例中规划准确率提高了12%,在闭环模拟中,驶出道路率降低了35%,近距离遭遇率降低了25%。强化学习后训练将推理质量提高了45%(由大型推理模型评估),推理-动作一致性提高了37%。模型从0.5B扩展到7B参数显示出持续的改进。车载道路测试证实了实时性能(99毫秒延迟)和成功的城市部署。通过将可解释的推理与精确控制相结合,AR1展示了通往L4级自动驾驶的实用路径。计划在未来的更新中发布AR1模型和CoC数据集的子集。

🔬 方法详解

问题定义:现有端到端自动驾驶系统,特别是基于模仿学习训练的系统,在面对长尾场景时表现出脆弱性。这些场景数据稀疏,模型难以学习到鲁棒的因果关系,导致决策失误,尤其是在安全攸关的场景中。现有方法缺乏对驾驶行为背后原因的理解,难以进行有效的推理和规划。

核心思路:Alpamayo-R1的核心思路是将可解释的因果推理与精确的轨迹规划相结合。通过显式地建模驾驶行为的因果关系,模型能够更好地理解场景,做出更合理的决策,并生成更安全的轨迹。这种方法旨在弥合感知、推理和行动之间的差距,提高自动驾驶系统在复杂和不确定环境中的鲁棒性。

技术框架:Alpamayo-R1采用模块化的视觉-语言-动作(VLA)架构。该架构包含以下主要模块:(1) Cosmos-Reason:一个预训练的视觉-语言模型,用于理解场景并生成因果推理链;(2) 轨迹解码器:一个基于扩散模型的轨迹生成器,用于生成动态可行的轨迹;(3) 训练模块:包括监督微调和强化学习两个阶段,用于训练模型进行推理和规划。整体流程是:首先,视觉输入通过Cosmos-Reason生成因果推理链;然后,推理链被输入到轨迹解码器中,生成轨迹;最后,通过强化学习优化推理质量和推理-动作一致性。

关键创新:该论文的关键创新点在于:(1) 提出了一个混合自动标注和人工参与的流程,构建了包含因果推理链的CoC数据集;(2) 将预训练的视觉-语言模型Cosmos-Reason与扩散模型轨迹解码器相结合,实现了端到端的推理和规划;(3) 提出了一个多阶段训练策略,通过监督微调和强化学习来优化推理质量和推理-动作一致性。与现有方法相比,AR1能够显式地建模驾驶行为的因果关系,从而提高了决策的合理性和安全性。

关键设计:CoC数据集的构建采用了混合标注方法,结合了自动标注和人工校正,保证了数据的质量和规模。Cosmos-Reason模型采用了大规模的预训练,使其具备了强大的场景理解和推理能力。轨迹解码器采用了基于扩散模型的生成方法,能够生成动态可行的轨迹。强化学习阶段采用了大型推理模型作为critic,用于评估推理质量,并使用奖励函数来鼓励推理-动作一致性。具体的参数设置、损失函数和网络结构等细节在论文中有详细描述(未知)。

📊 实验亮点

实验结果表明,Alpamayo-R1在具有挑战性的案例中,规划准确率相比基线提高了12%,脱离道路率降低了35%,近距离遭遇率降低了25%。强化学习后训练将推理质量提高了45%,推理-动作一致性提高了37%。模型扩展到7B参数后,性能持续提升。车载道路测试验证了AR1的实时性能(99毫秒延迟)和城市部署的有效性。

🎯 应用场景

Alpamayo-R1的研究成果可应用于L4及以上级别的自动驾驶系统,尤其是在城市复杂交通环境和长尾场景中。该方法能够提高自动驾驶系统的安全性和可靠性,减少事故发生率。此外,该技术还可以应用于机器人导航、智能交通管理等领域,具有广阔的应用前景。

📄 摘要(原文)

End-to-end architectures trained via imitation learning have advanced autonomous driving by scaling model size and data, yet performance remains brittle in safety-critical long-tail scenarios where supervision is sparse and causal understanding is limited. To address this, we introduce Alpamayo-R1 (AR1), a vision-language-action model (VLA) that integrates Chain of Causation reasoning with trajectory planning to enhance decision-making in complex driving scenarios. Our approach features three key innovations: (1) the Chain of Causation (CoC) dataset, built through a hybrid auto-labeling and human-in-the-loop pipeline producing decision-grounded, causally linked reasoning traces aligned with driving behaviors; (2) a modular VLA architecture combining Cosmos-Reason, a Vision-Language Model pre-trained for Physical AI applications, with a diffusion-based trajectory decoder that generates dynamically feasible plans in real time; (3) a multi-stage training strategy using supervised fine-tuning to elicit reasoning and reinforcement learning (RL) to optimize reasoning quality via large reasoning model feedback and enforce reasoning-action consistency. Evaluation shows AR1 achieves up to a 12% improvement in planning accuracy on challenging cases compared to a trajectory-only baseline, with a 35% reduction in off-road rate and 25% reduction in close encounter rate in closed-loop simulation. RL post-training improves reasoning quality by 45% as measured by a large reasoning model critic and reasoning-action consistency by 37%. Model scaling from 0.5B to 7B parameters shows consistent improvements. On-vehicle road tests confirm real-time performance (99 ms latency) and successful urban deployment. By bridging interpretable reasoning with precise control, AR1 demonstrates a practical path towards Level 4 autonomous driving. We plan to release AR1 models and a subset of the CoC in a future update.