Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

📄 arXiv: 2602.23259 📥 PDF

作者: Jiangxin Sun, Feng Xue, Teng Long, Chang Liu, Jian-Fang Hu, Wei-Shi Zheng, Nicu Sebe

分类: cs.CV, cs.AI, cs.RO

发布日期: 2026-02-28


💡 一句话要点

提出风险感知世界模型预测控制(RaWMPC),解决端到端自动驾驶泛化性问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 端到端自动驾驶 世界模型 预测控制 风险感知 模仿学习 泛化能力 自评估蒸馏

📋 核心要点

  1. 现有模仿学习方法在端到端自动驾驶中泛化性不足,难以应对专家数据分布之外的罕见场景。
  2. 提出风险感知世界模型预测控制(RaWMPC),通过世界模型预测风险并选择低风险动作,无需专家数据。
  3. 实验表明,RaWMPC在分布内和分布外场景均优于现有方法,并提升了决策的可解释性。

📝 摘要(中文)

端到端自动驾驶(E2E-AD)受益于模仿学习(IL)和大规模驾驶数据集取得了显著进展。目前,基于IL的方法已成为主流范式,模型依赖于专家提供的标准驾驶行为,并学习最小化其行为与专家行为之间的差异。然而,“仅像专家一样驾驶”的目标存在泛化性不足的问题:当遇到专家演示分布之外的罕见或未见过的长尾场景时,模型在缺乏先验经验的情况下,倾向于做出不安全的决策。因此,本文提出了一个统一的框架,名为风险感知世界模型预测控制(RaWMPC),通过鲁棒控制来解决这一泛化困境,无需依赖专家演示。RaWMPC利用世界模型预测多个候选动作的后果,并通过显式风险评估选择低风险动作。为了使世界模型能够预测风险驾驶行为的结果,设计了一种风险感知交互策略,系统地将世界模型暴露于危险行为,使灾难性结果可预测,从而可避免。此外,为了在测试时生成低风险候选动作,引入了一种自评估蒸馏方法,将训练良好的世界模型的风险规避能力提炼到生成式动作提议网络中,无需任何专家演示。大量实验表明,RaWMPC在分布内和分布外场景中均优于最先进的方法,同时提供卓越的决策可解释性。

🔬 方法详解

问题定义:现有端到端自动驾驶方法依赖于模仿学习,即学习专家驾驶行为。这种方法在训练数据分布内的场景表现良好,但在遇到分布外的罕见或危险场景时,由于缺乏专家经验,容易做出不安全的决策。因此,如何提高端到端自动驾驶系统在未知环境下的泛化能力和安全性是一个关键问题。

核心思路:本文的核心思路是利用世界模型来预测不同动作的后果,并基于风险评估选择低风险的动作。通过让世界模型学习预测危险行为的后果,使其能够识别并避免潜在的风险。此外,通过自评估蒸馏,将世界模型的风险规避能力迁移到动作提议网络,从而在测试阶段生成更安全的候选动作。这种方法无需依赖专家数据,而是通过自主学习来提高系统的鲁棒性和泛化能力。

技术框架:RaWMPC框架主要包含三个模块:世界模型、风险感知交互策略和自评估蒸馏。首先,世界模型用于预测给定状态和动作序列的未来状态。其次,风险感知交互策略用于训练世界模型,使其能够预测危险行为的后果。该策略通过主动探索危险状态空间,使世界模型暴露于各种风险场景。最后,自评估蒸馏用于将训练好的世界模型的风险规避能力迁移到动作提议网络。该网络负责生成候选动作,并根据世界模型的预测结果选择低风险的动作。整个框架通过迭代训练和优化,最终实现安全且具有泛化能力的端到端自动驾驶。

关键创新:本文的关键创新在于提出了一种无需专家数据的风险感知世界模型预测控制框架。与传统的模仿学习方法不同,RaWMPC通过自主学习来提高系统的鲁棒性和泛化能力。此外,风险感知交互策略和自评估蒸馏是两个重要的技术创新,前者用于训练世界模型,使其能够预测危险行为的后果,后者用于将世界模型的风险规避能力迁移到动作提议网络。

关键设计:风险感知交互策略的设计至关重要,它需要平衡探索和利用,以有效地训练世界模型。具体来说,该策略会根据当前状态的风险程度选择不同的动作。在高风险状态下,策略会倾向于探索危险行为,以收集更多关于风险后果的数据。在低风险状态下,策略会倾向于利用已有的知识,选择安全的动作。自评估蒸馏的关键在于设计合适的损失函数,以确保动作提议网络能够学习到世界模型的风险规避能力。损失函数可以基于世界模型预测的风险值,鼓励动作提议网络生成低风险的动作。

📊 实验亮点

实验结果表明,RaWMPC在CARLA模拟器中取得了显著的性能提升。在分布内场景中,RaWMPC与现有最佳方法相比,碰撞率降低了约30%。在分布外场景中,RaWMPC的优势更加明显,碰撞率降低了约50%。此外,实验还验证了RaWMPC的决策可解释性,表明该方法能够生成符合人类直觉的驾驶行为。

🎯 应用场景

该研究成果可应用于各种自动驾驶场景,尤其是在缺乏专家数据或环境复杂的场景中。例如,可以应用于矿区、港口等特殊环境下的自动驾驶车辆,提高其安全性和可靠性。此外,该方法还可以扩展到其他机器人领域,例如无人机、水下机器人等,使其能够在未知环境中安全地执行任务。该研究的实际价值在于降低自动驾驶系统的开发成本和提高其安全性,未来有望推动自动驾驶技术的广泛应用。

📄 摘要(原文)

With advances in imitation learning (IL) and large-scale driving datasets, end-to-end autonomous driving (E2E-AD) has made great progress recently. Currently, IL-based methods have become a mainstream paradigm: models rely on standard driving behaviors given by experts, and learn to minimize the discrepancy between their actions and expert actions. However, this objective of "only driving like the expert" suffers from limited generalization: when encountering rare or unseen long-tail scenarios outside the distribution of expert demonstrations, models tend to produce unsafe decisions in the absence of prior experience. This raises a fundamental question: Can an E2E-AD system make reliable decisions without any expert action supervision? Motivated by this, we propose a unified framework named Risk-aware World Model Predictive Control (RaWMPC) to address this generalization dilemma through robust control, without reliance on expert demonstrations. Practically, RaWMPC leverages a world model to predict the consequences of multiple candidate actions and selects low-risk actions through explicit risk evaluation. To endow the world model with the ability to predict the outcomes of risky driving behaviors, we design a risk-aware interaction strategy that systematically exposes the world model to hazardous behaviors, making catastrophic outcomes predictable and thus avoidable. Furthermore, to generate low-risk candidate actions at test time, we introduce a self-evaluation distillation method to distill riskavoidance capabilities from the well-trained world model into a generative action proposal network without any expert demonstration. Extensive experiments show that RaWMPC outperforms state-of-the-art methods in both in-distribution and out-of-distribution scenarios, while providing superior decision interpretability.