Post-interactive Multimodal Trajectory Prediction for Autonomous Driving
作者: Ziyi Huang, Yang Li, Dushuai Li, Yao Mu, Hongmao Qin, Nan Zheng
分类: cs.CV
发布日期: 2025-03-12
💡 一句话要点
提出Pioformer,显式建模交互后特征,提升自动驾驶轨迹预测精度
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 轨迹预测 交互建模 Transformer 超图神经网络
📋 核心要点
- 现有轨迹预测模型难以充分建模智能体行为的不确定性以及交互后的影响。
- Pioformer通过粗到精的Transformer架构,显式提取并融合交互前后的特征,提升预测精度。
- 在Argoverse 1数据集上,Pioformer显著降低了预测误差,优于基线HiVT-64模型。
📝 摘要(中文)
针对自动驾驶轨迹预测中智能体行为不确定性带来的交互建模挑战,本文提出一种粗到精的Transformer网络Pioformer,用于多模态轨迹预测。该模型显式提取交互后特征,以提高预测精度。具体而言,首先构建粗轨迹网络,基于观测轨迹和车道线生成粗略轨迹,并使用图神经网络提取低阶交互特征。然后,构建基于超图神经网络的轨迹提议网络,生成轨迹提议,并通过超图学习高阶交互特征。最后,将轨迹提议送入提议细化网络进行进一步细化,该网络结合先前的交互特征和轨迹一致性特征,学习交互后特征。此外,提出了一种三阶段训练方案以促进学习过程。在Argoverse 1数据集上的大量实验表明了该方法的优越性。与基线HiVT-64相比,该模型在minADE6、minFDE6、MR6和brier-minFDE6指标上分别降低了4.4%、8.4%、14.4%和5.7%的预测误差。
🔬 方法详解
问题定义:自动驾驶场景下的轨迹预测问题,核心在于准确建模智能体之间的交互关系。现有方法通常忽略了智能体交互后产生的特征,导致预测精度受限。此外,智能体行为的内在不确定性也增加了建模难度。
核心思路:本文的核心思路是显式地提取和利用智能体交互后的特征(post-interaction features)。通过一个粗到精的预测框架,逐步细化轨迹预测结果,并在细化过程中融入交互后特征,从而更准确地预测智能体的未来轨迹。
技术框架:Pioformer包含三个主要模块:粗轨迹网络(Coarse Trajectory Network)、轨迹提议网络(Trajectory Proposal Network)和提议细化网络(Proposal Refinement Network)。首先,粗轨迹网络基于观测轨迹和车道线生成粗略的轨迹,并提取低阶交互特征。然后,轨迹提议网络生成多个轨迹提议,并学习高阶交互特征。最后,提议细化网络结合之前的交互特征和轨迹一致性特征,学习交互后特征,并对轨迹提议进行细化。
关键创新:Pioformer的关键创新在于显式地建模和利用了交互后特征。通过将观测轨迹和轨迹提议拼接在一起,作为提议细化网络的输入,从而能够学习到智能体交互后产生的特征,并将其用于轨迹预测。此外,使用超图神经网络来学习高阶交互特征也是一个创新点。
关键设计:Pioformer采用三阶段训练方案,首先训练粗轨迹网络,然后训练轨迹提议网络,最后训练提议细化网络。在网络结构方面,使用了Transformer架构来建模序列数据,并使用图神经网络和超图神经网络来建模智能体之间的交互关系。损失函数方面,使用了多种损失函数来约束轨迹预测的准确性和多样性,例如最小平均位移误差(minADE)和最小最终位移误差(minFDE)。
🖼️ 关键图片
📊 实验亮点
Pioformer在Argoverse 1数据集上取得了显著的性能提升。与基线HiVT-64相比,Pioformer在minADE6、minFDE6、MR6和brier-minFDE6指标上分别降低了4.4%、8.4%、14.4%和5.7%的预测误差。这些结果表明,显式建模交互后特征能够有效提升轨迹预测的精度。
🎯 应用场景
该研究成果可应用于自动驾驶系统的轨迹预测模块,提升自动驾驶车辆在复杂交通环境下的决策能力和安全性。通过更准确地预测其他交通参与者的行为,自动驾驶车辆可以更好地规划自身行驶路径,避免碰撞,提高通行效率。此外,该方法也可应用于机器人导航、交通流量预测等领域。
📄 摘要(原文)
Modeling the interactions among agents for trajectory prediction of autonomous driving has been challenging due to the inherent uncertainty in agents' behavior. The interactions involved in the predicted trajectories of agents, also called post-interactions, have rarely been considered in trajectory prediction models. To this end, we propose a coarse-to-fine Transformer for multimodal trajectory prediction, i.e., Pioformer, which explicitly extracts the post-interaction features to enhance the prediction accuracy. Specifically, we first build a Coarse Trajectory Network to generate coarse trajectories based on the observed trajectories and lane segments, in which the low-order interaction features are extracted with the graph neural networks. Next, we build a hypergraph neural network-based Trajectory Proposal Network to generate trajectory proposals, where the high-order interaction features are learned by the hypergraphs. Finally, the trajectory proposals are sent to the Proposal Refinement Network for further refinement. The observed trajectories and trajectory proposals are concatenated together as the inputs of the Proposal Refinement Network, in which the post-interaction features are learned by combining the previous interaction features and trajectory consistency features. Moreover, we propose a three-stage training scheme to facilitate the learning process. Extensive experiments on the Argoverse 1 dataset demonstrate the superiority of our method. Compared with the baseline HiVT-64, our model has reduced the prediction errors by 4.4%, 8.4%, 14.4%, 5.7% regarding metrics minADE6, minFDE6, MR6, and brier-minFDE6, respectively.