Dream to Drive with Predictive Individual World Model

📄 arXiv: 2501.16733v1 📥 PDF

作者: Yinfeng Gao, Qichao Zhang, Da-wei Ding, Dongbin Zhao

分类: cs.RO, cs.CV, cs.LG

发布日期: 2025-01-28

备注: Codes: https://github.com/gaoyinfeng/PIWM

DOI: 10.1109/TIV.2024.3408830.


💡 一句话要点

提出基于预测个体世界模型的MBRL方法,用于复杂城市环境下的自主驾驶

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自主驾驶 强化学习 世界模型 轨迹预测 意图预测 个体建模 城市环境

📋 核心要点

  1. 现有基于场景重建的MBRL方法难以捕捉车辆间的交互和意图,限制了其在复杂城市环境中的应用。
  2. 论文提出预测个体世界模型(PIWM),从个体层面建模环境,通过轨迹预测捕捉车辆交互和意图。
  3. 实验表明,该方法在模拟的复杂城市驾驶场景中,相比现有方法,在安全性和效率上均有提升。

📝 摘要(中文)

在复杂的城市环境中,由于道路使用者的意图未知,做出反应式驾驶行为仍然是一个具有挑战性的课题。基于模型的强化学习(MBRL)通过构建一个能够提供信息丰富的状态和想象训练的世界模型,为学习反应式策略提供了巨大的潜力。然而,相关研究的一个关键限制在于场景级的重建表征学习,这可能会忽略关键的交互车辆,并且难以建模车辆之间的交互特征及其长期意图。因此,本文提出了一种新的基于预测个体世界模型(PIWM)的MBRL方法用于自主驾驶。PIWM从个体层面描述驾驶环境,并通过轨迹预测任务捕捉车辆的交互关系及其意图。同时,行为策略与PIWM联合学习,并在PIWM的想象中进行训练,利用意图感知的潜在状态有效地在城市驾驶场景中导航。所提出的方法在基于真实世界具有挑战性的交互场景构建的仿真环境中进行训练和评估。与流行的无模型和最先进的基于模型的强化学习方法相比,实验结果表明,所提出的方法在安全性和效率方面都取得了最佳性能。

🔬 方法详解

问题定义:在复杂的城市环境中,自主驾驶车辆需要根据其他道路使用者的行为做出反应。然而,由于其他车辆的意图未知,传统的基于场景重建的MBRL方法难以准确预测它们的行为,从而导致驾驶策略的安全性和效率降低。现有方法忽略了车辆间的交互关系,无法有效建模长期意图。

核心思路:论文的核心思路是从个体层面建模驾驶环境,即关注每个车辆个体,并预测它们的未来轨迹。通过预测个体车辆的轨迹,可以推断它们的意图,从而使自主驾驶车辆能够做出更安全、更高效的决策。这种个体层面的建模方式能够更好地捕捉车辆间的交互关系,并预测它们的长期行为。

技术框架:该方法包含两个主要模块:预测个体世界模型(PIWM)和行为策略。PIWM负责从个体层面建模驾驶环境,并通过轨迹预测任务捕捉车辆的交互关系及其意图。行为策略则基于PIWM提供的意图感知的潜在状态,在PIWM的想象环境中进行训练,从而学习如何在城市驾驶场景中导航。整个框架采用联合训练的方式,同时优化PIWM和行为策略。

关键创新:该方法最重要的技术创新点在于提出了预测个体世界模型(PIWM)。与传统的基于场景重建的方法不同,PIWM从个体层面建模环境,能够更好地捕捉车辆间的交互关系和长期意图。通过轨迹预测任务,PIWM能够预测其他车辆的未来行为,从而为自主驾驶车辆提供更准确的环境信息。

关键设计:PIWM使用循环神经网络(RNN)来建模每个车辆个体的状态,并预测它们的未来轨迹。轨迹预测任务采用均方误差(MSE)损失函数进行优化。行为策略采用深度神经网络(DNN),输入是PIWM提供的意图感知的潜在状态,输出是自主驾驶车辆的动作。行为策略的训练采用强化学习算法,例如PPO或SAC。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在模拟的复杂城市驾驶场景中,相比于流行的无模型和最先进的基于模型的强化学习方法,在安全性和效率方面均取得了最佳性能。具体而言,该方法在碰撞率方面显著降低,同时在平均速度和行驶距离方面有所提升,验证了PIWM在复杂交互场景下的有效性。

🎯 应用场景

该研究成果可应用于各种自主驾驶场景,尤其是在交通复杂的城市环境中。通过准确预测其他车辆的意图,自主驾驶车辆可以做出更安全、更高效的决策,从而提高交通效率,降低事故风险。此外,该方法还可以应用于机器人导航、交通流量预测等领域,具有广泛的应用前景。

📄 摘要(原文)

It is still a challenging topic to make reactive driving behaviors in complex urban environments as road users' intentions are unknown. Model-based reinforcement learning (MBRL) offers great potential to learn a reactive policy by constructing a world model that can provide informative states and imagination training. However, a critical limitation in relevant research lies in the scene-level reconstruction representation learning, which may overlook key interactive vehicles and hardly model the interactive features among vehicles and their long-term intentions. Therefore, this paper presents a novel MBRL method with a predictive individual world model (PIWM) for autonomous driving. PIWM describes the driving environment from an individual-level perspective and captures vehicles' interactive relations and their intentions via trajectory prediction task. Meanwhile, a behavior policy is learned jointly with PIWM. It is trained in PIWM's imagination and effectively navigates in the urban driving scenes leveraging intention-aware latent states. The proposed method is trained and evaluated on simulation environments built upon real-world challenging interactive scenarios. Compared with popular model-free and state-of-the-art model-based reinforcement learning methods, experimental results show that the proposed method achieves the best performance in terms of safety and efficiency.