Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

📄 arXiv: 2602.23259v1 📥 PDF

作者: Jiangxin Sun, Feng Xue, Teng Long, Chang Liu, Jian-Fang Hu, Wei-Shi Zheng, Nicu Sebe

分类: cs.CV, cs.AI, cs.RO

发布日期: 2026-02-26


💡 一句话要点

提出风险感知世界模型预测控制(RaWMPC),解决端到端自动驾驶泛化性问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 端到端自动驾驶 世界模型 风险感知 预测控制 模仿学习 泛化能力 自评估蒸馏

📋 核心要点

  1. 现有模仿学习方法依赖专家数据,在未见过的长尾场景中泛化能力不足,易产生不安全行为。
  2. 提出RaWMPC框架,利用世界模型预测行为风险,通过风险评估选择低风险动作,无需专家监督。
  3. 通过风险感知交互策略训练世界模型,使其能预测危险行为结果,并使用自评估蒸馏生成低风险动作。

📝 摘要(中文)

随着模仿学习(IL)和大规模驾驶数据集的发展,端到端自动驾驶(E2E-AD)近年来取得了巨大进展。目前,基于IL的方法已成为主流范例:模型依赖于专家提供的标准驾驶行为,并学习最小化其行为与专家行为之间的差异。然而,“仅像专家一样驾驶”的目标存在泛化性有限的问题:当遇到专家演示分布之外的罕见或未见过的长尾场景时,模型在缺乏先验经验的情况下,往往会做出不安全的决策。这提出了一个根本问题:E2E-AD系统能否在没有任何专家行为监督的情况下做出可靠的决策?受此启发,我们提出了一个名为风险感知世界模型预测控制(RaWMPC)的统一框架,通过鲁棒控制来解决这种泛化困境,而无需依赖专家演示。实际上,RaWMPC利用世界模型来预测多个候选行为的后果,并通过显式风险评估来选择低风险行为。为了使世界模型具备预测风险驾驶行为结果的能力,我们设计了一种风险感知交互策略,系统地将世界模型暴露于危险行为,使灾难性结果可预测,从而可避免。此外,为了在测试时生成低风险候选行为,我们引入了一种自评估蒸馏方法,将训练良好的世界模型的风险规避能力提炼到生成式动作提议网络中,而无需任何专家演示。大量实验表明,RaWMPC在分布内和分布外场景中均优于最先进的方法,同时提供了卓越的决策可解释性。

🔬 方法详解

问题定义:现有端到端自动驾驶方法依赖模仿学习,模型学习模仿专家驾驶行为。然而,这种方法在面对训练数据中未出现的罕见或危险场景时,泛化能力较差,容易做出不安全的决策。因此,需要一种无需专家数据,也能在各种场景下做出安全可靠决策的自动驾驶系统。

核心思路:论文的核心思路是利用世界模型预测不同驾驶行为的后果,并基于预测结果评估每个行为的风险。通过选择风险最低的行为,实现安全可靠的自动驾驶。这种方法不需要专家数据,而是通过与环境的交互学习风险感知能力。

技术框架:RaWMPC框架主要包含以下几个模块:1) 世界模型:用于预测给定状态和动作序列的未来状态。2) 风险评估模块:基于世界模型的预测结果,评估每个动作序列的风险。3) 动作规划模块:生成多个候选动作序列,并选择风险最低的动作序列执行。4) 风险感知交互策略:用于训练世界模型,使其能够预测危险行为的后果。5) 自评估蒸馏:将训练好的世界模型的风险规避能力迁移到动作提议网络。

关键创新:该论文的关键创新在于:1) 提出了一个无需专家数据的端到端自动驾驶框架,通过世界模型和风险评估实现安全驾驶。2) 设计了一种风险感知交互策略,使世界模型能够预测危险行为的后果。3) 提出了一种自评估蒸馏方法,将世界模型的风险规避能力迁移到动作提议网络。

关键设计:风险感知交互策略通过探索危险行为来训练世界模型,例如,鼓励车辆偏离车道或接近其他车辆。自评估蒸馏使用世界模型作为教师模型,指导动作提议网络学习生成低风险的动作。损失函数包括预测损失和风险损失,用于训练世界模型和动作提议网络。

📊 实验亮点

实验结果表明,RaWMPC在分布内和分布外场景中均优于现有方法。例如,在CARLA模拟器上的实验表明,RaWMPC在避免碰撞方面显著优于基线方法,并且在未见过的场景中表现出更强的泛化能力。此外,RaWMPC还提供了更好的决策可解释性,可以清晰地展示其选择低风险动作的原因。

🎯 应用场景

该研究成果可应用于各种自动驾驶场景,尤其是在需要高安全性的场景中,如城市道路、高速公路等。该方法无需专家数据,降低了数据采集成本,并提高了自动驾驶系统的泛化能力和安全性。未来可进一步扩展到更复杂的交通环境和车辆类型。

📄 摘要(原文)

With advances in imitation learning (IL) and large-scale driving datasets, end-to-end autonomous driving (E2E-AD) has made great progress recently. Currently, IL-based methods have become a mainstream paradigm: models rely on standard driving behaviors given by experts, and learn to minimize the discrepancy between their actions and expert actions. However, this objective of "only driving like the expert" suffers from limited generalization: when encountering rare or unseen long-tail scenarios outside the distribution of expert demonstrations, models tend to produce unsafe decisions in the absence of prior experience. This raises a fundamental question: Can an E2E-AD system make reliable decisions without any expert action supervision? Motivated by this, we propose a unified framework named Risk-aware World Model Predictive Control (RaWMPC) to address this generalization dilemma through robust control, without reliance on expert demonstrations. Practically, RaWMPC leverages a world model to predict the consequences of multiple candidate actions and selects low-risk actions through explicit risk evaluation. To endow the world model with the ability to predict the outcomes of risky driving behaviors, we design a risk-aware interaction strategy that systematically exposes the world model to hazardous behaviors, making catastrophic outcomes predictable and thus avoidable. Furthermore, to generate low-risk candidate actions at test time, we introduce a self-evaluation distillation method to distill riskavoidance capabilities from the well-trained world model into a generative action proposal network without any expert demonstration. Extensive experiments show that RaWMPC outperforms state-of-the-art methods in both in-distribution and out-of-distribution scenarios, while providing superior decision interpretability.