Generalizable Trajectory Prediction via Inverse Reinforcement Learning with Mamba-Graph Architecture

📄 arXiv: 2506.12474v1 📥 PDF

作者: Wenyun Li, Wenjie Huang, Zejian Deng, Chen Sun

分类: cs.LG, cs.AI

发布日期: 2025-06-14


💡 一句话要点

提出基于Mamba-Graph架构的逆强化学习方法,提升轨迹预测的泛化能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 轨迹预测 逆强化学习 Mamba 图注意力网络 自动驾驶 驾驶行为建模 序列建模

📋 核心要点

  1. 现有轨迹预测方法在复杂交通场景中难以准确建模驾驶行为,限制了其泛化能力。
  2. 论文提出基于逆强化学习的框架,通过学习奖励函数来模拟人类驾驶决策,提升模型对不同场景的适应性。
  3. 实验结果表明,该方法在预测精度上优于现有方法,且在未见场景的泛化性能上提升显著。

📝 摘要(中文)

本文提出了一种新颖的逆强化学习(IRL)框架,旨在通过推断多样化的奖励函数来捕捉类人的决策过程,从而实现鲁棒的跨场景适应性,解决复杂交通场景中精确驾驶行为建模的难题。该框架利用学习到的奖励函数,通过结合Mamba块(用于高效的长序列依赖建模)和图注意力网络(用于编码交通参与者之间的空间交互)的编码器-解码器架构,最大化输出的可能性。在城市交叉路口和环岛的综合评估表明,该方法不仅在预测精度方面优于各种流行的轨迹预测方法,而且与其他基于IRL的方法相比,在未见场景中的泛化性能提高了2倍。

🔬 方法详解

问题定义:轨迹预测旨在预测交通场景中各个智能体未来的运动轨迹。现有方法在复杂交通场景中,难以准确捕捉驾驶员的决策行为,导致预测精度下降,泛化能力不足。尤其是在未见过的场景中,性能会显著降低。现有方法难以有效建模长时序依赖关系和智能体之间的复杂交互。

核心思路:本文的核心思路是利用逆强化学习(IRL)来学习一个能够反映人类驾驶行为的奖励函数。通过学习奖励函数,模型可以更好地理解驾驶员的意图,从而更准确地预测其未来的轨迹。此外,结合Mamba块和图注意力网络,分别用于建模长时序依赖关系和智能体之间的空间交互,进一步提升预测性能。

技术框架:该方法采用编码器-解码器架构。编码器部分,首先使用图注意力网络(GAT)来编码交通场景中各个智能体之间的空间交互关系,然后使用Mamba块来建模轨迹序列中的时间依赖关系。解码器部分,利用学习到的奖励函数,生成预测轨迹。整个框架通过最大化观测轨迹的似然概率进行训练。

关键创新:该方法的主要创新点在于结合了Mamba块和图注意力网络的逆强化学习框架。Mamba块能够高效地建模长序列依赖关系,克服了传统RNN和Transformer在处理长序列时的计算瓶颈。图注意力网络能够有效地编码智能体之间的空间交互,捕捉交通场景的复杂性。将两者结合,并融入逆强化学习框架,能够更准确地预测轨迹,并提升泛化能力。

关键设计:奖励函数的设计是关键。论文采用了一种参数化的奖励函数,该函数由多个特征组成,例如与目标位置的距离、速度、加速度等。通过逆强化学习,学习这些特征的权重,从而得到最终的奖励函数。损失函数采用最大似然估计,即最大化观测轨迹的似然概率。Mamba块的具体参数设置(例如层数、隐藏层大小)和图注意力网络的注意力头数等参数需要根据具体数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在城市交叉路口和环岛等复杂交通场景中,预测精度优于多种主流方法。尤其是在泛化性能方面,相比于其他基于IRL的方法,该方法在未见场景中的性能提升了2倍。这表明该方法具有更强的鲁棒性和适应性。

🎯 应用场景

该研究成果可应用于自动驾驶、高级驾驶辅助系统(ADAS)、智能交通管理等领域。通过准确预测交通参与者的轨迹,可以提高自动驾驶车辆的安全性,减少交通事故的发生。此外,该方法还可以用于交通流量预测和优化,提高交通效率,缓解交通拥堵。

📄 摘要(原文)

Accurate driving behavior modeling is fundamental to safe and efficient trajectory prediction, yet remains challenging in complex traffic scenarios. This paper presents a novel Inverse Reinforcement Learning (IRL) framework that captures human-like decision-making by inferring diverse reward functions, enabling robust cross-scenario adaptability. The learned reward function is utilized to maximize the likelihood of output by the encoder-decoder architecture that combines Mamba blocks for efficient long-sequence dependency modeling with graph attention networks to encode spatial interactions among traffic agents. Comprehensive evaluations on urban intersections and roundabouts demonstrate that the proposed method not only outperforms various popular approaches in prediction accuracy but also achieves 2 times higher generalization performance to unseen scenarios compared to other IRL-based method.