OFMPNet: Deep End-to-End Model for Occupancy and Flow Prediction in Urban Environment

📄 arXiv: 2404.02263v1 📥 PDF

作者: Youshaa Murhij, Dmitry Yudin

分类: cs.CV, cs.AI, cs.RO

发布日期: 2024-04-02

备注: Accepted in Neurocomputing journal - 2024


💡 一句话要点

提出OFMPNet以解决城市环境中的占用与流动预测问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 运动预测 自动驾驶 深度学习 占用图 城市环境 神经网络 模型创新

📋 核心要点

  1. 现有运动预测方法主要关注单独预测每个代理的未来轨迹,缺乏对环境中所有动态物体的整体预测能力。
  2. 本文提出的OFMPNet模型通过结合占用图和运动流,采用端到端的方式预测所有动态物体的未来行为。
  3. 在Waymo基准测试中,OFMPNet取得了52.1%的Soft IoU和76.75%的AUC,显著提升了预测精度。

📝 摘要(中文)

运动预测任务对于自动驾驶系统至关重要,为选择车辆在周围环境中的行为策略提供了重要数据。现有的运动预测技术主要集中在单独预测场景中每个代理的未来轨迹,利用其过去的轨迹数据。本文提出了一种端到端的神经网络方法,旨在预测环境中所有动态物体的未来行为。该方法利用占用图和场景的运动流。我们研究了构建深度编码器-解码器模型OFMPNet的各种替代方案,该模型使用鸟瞰图的道路图像、占用网格和先前的运动流作为输入数据。模型的编码器可以结合变换器、基于注意力的单元或卷积单元,解码器则考虑使用卷积模块和递归块。此外,我们提出了一种新颖的时间加权运动流损失,其应用显著降低了终点误差。我们的研究在Waymo占用与流动预测基准上取得了最先进的结果,Soft IoU为52.1%,Flow-Grounded Occupancy的AUC为76.75%。

🔬 方法详解

问题定义:本文旨在解决城市环境中动态物体的运动预测问题。现有方法往往只关注单个代理的轨迹预测,无法有效处理多个动态物体的交互与整体行为。

核心思路:我们提出的OFMPNet模型通过端到端的方式,利用占用图和运动流信息,综合考虑环境中所有动态物体的行为,提升预测的准确性和可靠性。

技术框架:OFMPNet模型由编码器和解码器两部分组成。编码器接收鸟瞰图的道路图像、占用网格和运动流作为输入,采用变换器、注意力机制或卷积单元进行特征提取;解码器则使用卷积模块和递归块生成未来行为预测。

关键创新:本文的主要创新在于提出了一种时间加权运动流损失函数,该损失函数有效降低了预测的终点误差,显著提升了模型的性能。

关键设计:模型的设计中,编码器和解码器的结构灵活多样,能够根据不同场景选择合适的单元。同时,时间加权损失函数的引入使得模型在训练过程中更关注重要时间点的预测,进一步提高了预测精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Waymo占用与流动预测基准测试中,OFMPNet模型取得了52.1%的Soft IoU和76.75%的AUC,显著优于现有方法,展示了其在动态环境中进行高效运动预测的能力。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶、智能交通系统和城市规划等。通过准确预测动态物体的行为,能够为自动驾驶系统提供更可靠的决策支持,提升行车安全性和效率。此外,研究成果还可为城市交通管理提供数据支持,优化交通流量和减少拥堵。

📄 摘要(原文)

The task of motion prediction is pivotal for autonomous driving systems, providing crucial data to choose a vehicle behavior strategy within its surroundings. Existing motion prediction techniques primarily focus on predicting the future trajectory of each agent in the scene individually, utilizing its past trajectory data. In this paper, we introduce an end-to-end neural network methodology designed to predict the future behaviors of all dynamic objects in the environment. This approach leverages the occupancy map and the scene's motion flow. We are investigatin various alternatives for constructing a deep encoder-decoder model called OFMPNet. This model uses a sequence of bird's-eye-view road images, occupancy grid, and prior motion flow as input data. The encoder of the model can incorporate transformer, attention-based, or convolutional units. The decoder considers the use of both convolutional modules and recurrent blocks. Additionally, we propose a novel time-weighted motion flow loss, whose application has shown a substantial decrease in end-point error. Our approach has achieved state-of-the-art results on the Waymo Occupancy and Flow Prediction benchmark, with a Soft IoU of 52.1% and an AUC of 76.75% on Flow-Grounded Occupancy.