Integrated Intention Prediction and Decision-Making with Spectrum Attention Net and Proximal Policy Optimization

📄 arXiv: 2408.03191v1 📥 PDF

作者: Xiao Zhou, Chengzhen Meng, Wenru Liu, Zengqi Peng, Ming Liu, Jun Ma

分类: cs.RO

发布日期: 2024-08-06


💡 一句话要点

提出频谱注意力网络与PPO集成的意图预测与决策框架,用于自动驾驶。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 意图预测 决策制定 深度强化学习 频谱注意力网络

📋 核心要点

  1. 现有方法难以建模预测和决策模块间的耦合关系,且计算效率有待提高。
  2. 提出频谱注意力网络预测车辆意图,并使用PPO算法进行决策,实现联合学习。
  3. 实验表明,该集成框架在成功率、效率和安全性方面优于现有深度强化学习方法。

📝 摘要(中文)

为了解决高动态环境中自动驾驶车辆对周围车辆(SVs)行为预测和安全决策问题,本研究提出了一种新颖的集成意图预测与决策方法,显式地建模了预测和决策模块之间的耦合关系,并实现了高效计算。具体而言,设计了一种频谱注意力网络,通过捕获每个频率分量随时间的趋势及其相互关系来预测SVs的意图。由于预测的意图在执行过程中没有被解码为轨迹,因此实现了意图预测模块的快速计算。此外,采用近端策略优化(PPO)算法,通过其目标函数中的裁剪机制实现适度的策略更新,从而解决框架中的非平稳问题。在此基础上,通过联合学习将意图预测和决策模块集成。在代表性的交通场景中进行的实验结果表明,所提出的集成框架在驾驶任务的成功率、效率和安全性方面优于几种深度强化学习(DRL)基线。

🔬 方法详解

问题定义:论文旨在解决自动驾驶车辆在复杂动态环境中,如何准确预测周围车辆的意图并做出安全有效的驾驶决策的问题。现有方法通常将意图预测和决策制定作为两个独立的模块处理,忽略了它们之间的内在耦合关系,导致次优的性能。此外,一些方法计算复杂度高,难以满足实时性要求。

核心思路:论文的核心思路是将意图预测和决策制定集成到一个统一的框架中,通过联合学习来显式地建模它们之间的耦合关系。利用频谱注意力网络高效地预测车辆意图,避免了将意图解码为轨迹的计算开销。同时,采用PPO算法来解决联合学习中的非平稳性问题,保证策略的稳定更新。

技术框架:整体框架包含两个主要模块:意图预测模块和决策制定模块。意图预测模块使用频谱注意力网络,输入是周围车辆的历史轨迹信息,输出是车辆的意图概率分布。决策制定模块使用PPO算法,输入是车辆的当前状态和意图预测模块的输出,输出是车辆的动作(例如,加速、减速、转向)。这两个模块通过联合学习进行训练,使得决策制定模块能够更好地利用意图预测模块的信息。

关键创新:论文的关键创新在于提出了频谱注意力网络来预测车辆意图。与传统的基于轨迹预测的方法不同,频谱注意力网络直接预测车辆的意图,避免了将意图解码为轨迹的计算开销,从而提高了计算效率。此外,频谱注意力网络能够捕获每个频率分量随时间的趋势及其相互关系,从而更准确地预测车辆的意图。

关键设计:频谱注意力网络的设计包括以下关键细节:首先,将车辆的历史轨迹信息进行傅里叶变换,得到频谱表示。然后,使用注意力机制来学习每个频率分量的重要性。最后,使用全连接层将注意力权重和频谱表示映射到意图概率分布。PPO算法的关键设计在于使用裁剪机制来限制策略更新的幅度,从而保证策略的稳定更新。损失函数包括策略损失、价值损失和熵损失,用于优化策略网络和价值网络。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的集成框架在代表性的交通场景中,相比于几种深度强化学习基线,在成功率、效率和安全性方面均有显著提升。具体数据未知,但摘要强调了优越性。

🎯 应用场景

该研究成果可应用于自动驾驶系统,提高车辆在复杂交通环境中的安全性、效率和舒适性。通过准确预测周围车辆的意图,自动驾驶车辆可以提前做出合理的驾驶决策,避免潜在的碰撞风险,提高交通流畅性。此外,该方法还可以应用于机器人导航、人机协作等领域,提高智能系统的决策能力。

📄 摘要(原文)

For autonomous driving in highly dynamic environments, it is anticipated to predict the future behaviors of surrounding vehicles (SVs) and make safe and effective decisions. However, modeling the inherent coupling effect between the prediction and decision-making modules has been a long-standing challenge, especially when there is a need to maintain appropriate computational efficiency. To tackle these problems, we propose a novel integrated intention prediction and decision-making approach, which explicitly models the coupling relationship and achieves efficient computation. Specifically, a spectrum attention net is designed to predict the intentions of SVs by capturing the trends of each frequency component over time and their interrelations. Fast computation of the intention prediction module is attained as the predicted intentions are not decoded to trajectories in the executing process. Furthermore, the proximal policy optimization (PPO) algorithm is employed to address the non-stationary problem in the framework through a modest policy update enabled by a clipping mechanism within its objective function. On the basis of these developments, the intention prediction and decision-making modules are integrated through joint learning. Experiments are conducted in representative traffic scenarios, and the results reveal that the proposed integrated framework demonstrates superior performance over several deep reinforcement learning (DRL) baselines in terms of success rate, efficiency, and safety in driving tasks.