Vectorized Representation Dreamer (VRD): Dreaming-Assisted Multi-Agent Motion-Forecasting

📄 arXiv: 2406.14415v1 📥 PDF

作者: Hunter Schofield, Hamidreza Mirkhani, Mohammed Elmahgiubi, Kasra Rezaee, Jinjun Shan

分类: cs.RO, cs.LG

发布日期: 2024-06-20

备注: Accepted for publication in IEEE Intelligent Vehicle Symposium (IV 2024)


💡 一句话要点

提出VRD,一种基于向量化世界模型的梦境辅助多智能体运动预测方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体运动预测 自动驾驶 向量化世界模型 梦境学习 闭环训练

📋 核心要点

  1. 现有运动预测方法较少考虑自车行为对其他智能体未来轨迹的影响,限制了自动驾驶决策的有效性。
  2. VRD利用向量化世界模型,结合开环训练和梦境闭环训练,以自车动作为条件预测多智能体轨迹。
  3. 实验表明,VRD在Argoverse 2数据集上取得了最先进的单预测漏报率,并在位移指标上与领先模型持平。

📝 摘要(中文)

为了使自动驾驶汽车能够在环境中规划路径,它必须能够准确预测其附近所有动态物体的轨迹。虽然许多传统方法将场景中的观测进行编码来解决这个问题,但很少有方法考虑自车行为对世界未来状态的影响。本文介绍VRD,一种受向量化世界模型启发的解决多智能体运动预测问题的方法。我们的方法将传统的开环训练机制与一种新颖的梦境闭环训练流程相结合,该流程利用运动学重建任务来想象所有智能体的轨迹,并以自车的动作为条件。在Argoverse 2多世界预测评估数据集和交叉路口无人机(inD)数据集上进行了定量和定性实验,证明了我们提出的模型的性能。我们的模型在Argoverse 2数据集的单预测漏报率指标上实现了最先进的性能,并且在单预测位移指标上与领先模型相当。

🔬 方法详解

问题定义:论文旨在解决多智能体运动预测问题,即预测场景中多个智能体未来的轨迹。现有方法的痛点在于,它们通常忽略了自车(ego vehicle)的行为对其他智能体运动的影响,导致预测结果不够准确,无法支持有效的自动驾驶决策。

核心思路:VRD的核心思路是将自车的行为纳入考虑,通过“梦境”的方式,让模型学习在不同自车行为下,其他智能体的可能轨迹。这种闭环训练方式能够使模型更好地理解自车行为与环境变化之间的因果关系,从而提高预测的准确性。

技术框架:VRD的技术框架主要包含以下几个模块:1) 向量化场景表示:将场景中的智能体和道路信息编码成向量形式。2) 运动学重建:利用运动学原理,根据自车动作重建其他智能体的轨迹。3) 开环训练:使用真实数据进行传统的开环训练。4) 梦境闭环训练:通过模拟自车行为,生成“梦境”数据,并利用运动学重建任务进行训练。

关键创新:VRD的关键创新在于引入了“梦境闭环训练”机制。与传统的开环训练相比,梦境闭环训练能够使模型更好地理解自车行为对环境的影响,从而提高预测的准确性。此外,利用运动学重建任务作为辅助任务,能够有效地约束模型的学习过程。

关键设计:VRD的关键设计包括:1) 使用向量化表示来编码场景信息,提高了模型的效率。2) 设计了运动学重建损失函数,用于约束梦境闭环训练过程。3) 采用了Transformer网络结构,用于建模智能体之间的交互关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VRD在Argoverse 2数据集上取得了显著的性能提升,在单预测漏报率(Miss Rate)指标上达到了最先进水平。同时,在单预测位移误差(Displacement Error)指标上,VRD的性能与领先模型相当。这些结果表明,VRD能够更准确地预测其他智能体的运动轨迹,尤其是在避免碰撞方面表现出色。

🎯 应用场景

VRD可应用于自动驾驶、机器人导航等领域,提升智能体在复杂动态环境中的决策能力。通过准确预测其他交通参与者的行为,自动驾驶系统可以更安全、高效地规划行驶路径,减少交通事故的发生。该研究对于提升自动驾驶技术的可靠性和安全性具有重要意义。

📄 摘要(原文)

For an autonomous vehicle to plan a path in its environment, it must be able to accurately forecast the trajectory of all dynamic objects in its proximity. While many traditional methods encode observations in the scene to solve this problem, there are few approaches that consider the effect of the ego vehicle's behavior on the future state of the world. In this paper, we introduce VRD, a vectorized world model-inspired approach to the multi-agent motion forecasting problem. Our method combines a traditional open-loop training regime with a novel dreamed closed-loop training pipeline that leverages a kinematic reconstruction task to imagine the trajectory of all agents, conditioned on the action of the ego vehicle. Quantitative and qualitative experiments are conducted on the Argoverse 2 multi-world forecasting evaluation dataset and the intersection drone (inD) dataset to demonstrate the performance of our proposed model. Our model achieves state-of-the-art performance on the single prediction miss rate metric on the Argoverse 2 dataset and performs on par with the leading models for the single prediction displacement metrics.