AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models

📄 arXiv: 2511.20325v1 📥 PDF

作者: Tianyi Yan, Tao Tang, Xingtai Gui, Yongkang Li, Jiasen Zhesng, Weiyao Huang, Lingdong Kong, Wencheng Han, Xia Zhou, Xueyang Zhang, Yifei Zhan, Kun Zhan, Cheng-zhong Xu, Jianbing Shen

分类: cs.CV

发布日期: 2025-11-25


💡 一句话要点

AD-R1:基于公正世界模型的端到端自动驾驶闭环强化学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 强化学习 世界模型 风险预测 反事实合成

📋 核心要点

  1. 现有端到端自动驾驶强化学习方法,由于世界模型中固有的乐观偏差,难以保证安全性和处理长尾事件。
  2. 提出一种基于公正世界模型的后训练策略改进框架,通过反事实合成数据,使模型能够准确预测危险。
  3. 实验表明,该模型在预测失败方面优于基线,并显著减少了模拟环境中的安全违规行为。

📝 摘要(中文)

端到端自动驾驶模型有望直接从传感器数据中学习复杂行为,但面临安全性和处理长尾事件的关键挑战。强化学习(RL)为克服这些限制提供了一条有希望的途径,但其在自动驾驶中的成功仍然难以捉摸。我们发现了一个阻碍这一进展的根本缺陷:用于RL的世界模型中存在根深蒂固的乐观偏差。为了解决这个问题,我们引入了一个围绕公正世界模型构建的后训练策略改进框架。我们的主要贡献是教会这个模型诚实地面对危险。我们通过一种新颖的数据合成管道——反事实合成来实现这一点,该管道系统地生成了丰富的、看似合理的碰撞和越野事件课程。这使得模型从被动的场景补全器转变为真实的预测器,保持了行动和结果之间的因果联系。然后,我们将这个公正的世界模型集成到我们的闭环RL框架中,它在其中充当内部评论员。在改进过程中,智能体查询评论员以“梦想”候选行动的结果。通过包括新的风险预测基准在内的大量实验,我们证明了我们的模型在预测失败方面明显优于基线。因此,当用作评论员时,它能够显著减少具有挑战性的模拟中的安全违规行为,证明了教会模型梦想危险是构建真正安全和智能的自动驾驶智能体的关键一步。

🔬 方法详解

问题定义:现有基于强化学习的端到端自动驾驶方法,其世界模型往往存在乐观偏差,即倾向于低估危险情况发生的概率,导致智能体在训练和实际应用中做出不安全的决策。尤其是在处理罕见但危险的长尾事件时,这种偏差会更加明显。因此,如何构建一个能够准确预测危险情况的世界模型,是提升自动驾驶安全性的关键挑战。

核心思路:论文的核心思路是训练一个“公正”的世界模型,使其能够如实地预测危险情况,避免乐观偏差。通过让模型“梦想”各种可能发生的危险场景,并学习这些场景的后果,从而提高其对风险的感知能力。这种方法类似于让模型进行“压力测试”,使其在各种极端情况下都能保持清醒的头脑。

技术框架:AD-R1框架主要包含两个阶段:首先,通过反事实合成数据训练一个公正的世界模型。然后,将该世界模型集成到闭环强化学习框架中,作为内部评论员,用于评估候选动作的安全性。在策略改进阶段,智能体会查询世界模型,预测不同动作可能导致的后果,并选择最安全的动作执行。

关键创新:该论文的关键创新在于提出了反事实合成数据生成方法,用于训练公正的世界模型。与传统的依赖真实数据的方法不同,反事实合成能够系统地生成各种可能发生的危险场景,包括碰撞和越野事件,从而有效地克服了长尾事件数据不足的问题。此外,将世界模型作为内部评论员,也为强化学习策略的安全性评估提供了一种新的思路。

关键设计:反事实合成数据生成管道是该方法的核心。它通过对真实场景进行修改,例如改变车辆的运动轨迹、增加障碍物等,来生成各种危险场景。为了保证合成数据的合理性,论文采用了一系列约束条件,例如保持场景的物理一致性。在训练世界模型时,采用了对比学习损失函数,鼓励模型区分不同的危险场景,并准确预测其后果。

📊 实验亮点

该模型在新的风险预测基准上显著优于基线模型,证明了其在预测失败方面的有效性。在具有挑战性的模拟环境中,使用该模型作为评论员的强化学习智能体,其安全违规行为显著减少,验证了该方法在提升自动驾驶安全性方面的潜力。

🎯 应用场景

该研究成果可应用于自动驾驶系统的安全性提升,尤其是在高风险场景下的决策。通过更准确的风险预测,自动驾驶车辆能够更好地避免事故,提高行驶安全性。此外,该方法还可以推广到其他机器人领域,例如无人机、服务机器人等,用于提高其在复杂环境中的适应性和安全性。

📄 摘要(原文)

End-to-end models for autonomous driving hold the promise of learning complex behaviors directly from sensor data, but face critical challenges in safety and handling long-tail events. Reinforcement Learning (RL) offers a promising path to overcome these limitations, yet its success in autonomous driving has been elusive. We identify a fundamental flaw hindering this progress: a deep seated optimistic bias in the world models used for RL. To address this, we introduce a framework for post-training policy refinement built around an Impartial World Model. Our primary contribution is to teach this model to be honest about danger. We achieve this with a novel data synthesis pipeline, Counterfactual Synthesis, which systematically generates a rich curriculum of plausible collisions and off-road events. This transforms the model from a passive scene completer into a veridical forecaster that remains faithful to the causal link between actions and outcomes. We then integrate this Impartial World Model into our closed-loop RL framework, where it serves as an internal critic. During refinement, the agent queries the critic to ``dream" of the outcomes for candidate actions. We demonstrate through extensive experiments, including on a new Risk Foreseeing Benchmark, that our model significantly outperforms baselines in predicting failures. Consequently, when used as a critic, it enables a substantial reduction in safety violations in challenging simulations, proving that teaching a model to dream of danger is a critical step towards building truly safe and intelligent autonomous agents.