SPformer: A Transformer Based DRL Decision Making Method for Connected Automated Vehicles

📄 arXiv: 2409.15105v1 📥 PDF

作者: Ye Han, Lijun Zhang, Dejian Meng, Xingyu Hu, Yixia Lu

分类: cs.AI, cs.MA, eess.SY

发布日期: 2024-09-23

DOI: 10.1109/ITSC58415.2024.10920254


💡 一句话要点

提出基于Transformer的DRL决策方法SPformer,用于提升混行交通环境中自动驾驶车辆的决策质量。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 深度强化学习 Transformer 多智能体协同 车辆决策

📋 核心要点

  1. 现有基于DRL的多车协同决策方法难以有效表示车辆间的复杂交互,影响学习效率和决策质量。
  2. 提出SPformer,利用Transformer自注意力机制自适应提取车辆间的交互特征,并设计物理位置编码优化网络性能。
  3. 仿真结果表明,SPformer能有效利用车辆状态信息,提升驾驶决策的效率和安全性,显著优于现有DRL方法。

📝 摘要(中文)

在混合自主交通环境中,自动驾驶车辆的每一个决策都可能对交通系统产生重大影响。由于车辆之间复杂的交互,做出既能保证高交通效率又能保证安全的决策具有挑战性。联网自动驾驶车辆(CAV)由于其更强的感知和通信能力,在持续、高度动态和交互的环境中具有提高决策质量的巨大潜力。对于基于深度强化学习(DRL)的多车辆协同决策算法,我们需要表示车辆之间的交互以获得交互特征。这方面的表示直接影响学习效率和学习策略的质量。为此,我们提出了一种基于Transformer和强化学习算法的CAV决策架构。一个可学习的策略token被用作多车辆联合策略的学习媒介,区域内所有车辆的状态可以被自适应地注意到,以便提取智能体之间的交互特征。我们还设计了一种直观的物理位置编码,其冗余的位置信息优化了网络的性能。仿真结果表明,我们的模型可以很好地利用交通场景中所有车辆的状态信息,从而获得满足效率和安全目标的高质量驾驶决策。对比表明,我们的方法显著提高了现有的基于DRL的多车辆协同决策算法。

🔬 方法详解

问题定义:在混合自主交通环境中,如何让联网自动驾驶车辆(CAV)做出高质量的决策,以保证交通效率和安全。现有基于深度强化学习(DRL)的多车辆协同决策算法,在表示车辆之间的复杂交互方面存在不足,导致学习效率低下,最终影响决策质量。

核心思路:利用Transformer的自注意力机制来学习车辆之间的交互特征。通过引入一个可学习的策略token,作为多车辆联合策略的学习媒介,使模型能够自适应地关注区域内所有车辆的状态,从而提取更有效的交互特征。同时,设计直观的物理位置编码,以优化网络性能。

技术框架:SPformer架构包含以下几个主要模块:1) 状态编码模块:将每个车辆的状态信息(例如位置、速度等)进行编码。2) 位置编码模块:使用设计的物理位置编码对车辆的位置信息进行编码。3) Transformer编码器:利用Transformer编码器,通过自注意力机制学习车辆之间的交互特征。4) 策略token:引入一个可学习的策略token,作为多车辆联合策略的学习媒介。5) 决策输出模块:根据学习到的交互特征和策略token,输出车辆的驾驶决策(例如加速、减速、变道等)。

关键创新:1) 使用Transformer的自注意力机制来学习车辆之间的交互特征,能够自适应地关注重要车辆的状态信息。2) 引入可学习的策略token,作为多车辆联合策略的学习媒介,提升了学习效率。3) 设计了直观的物理位置编码,优化了网络性能。

关键设计:1) 物理位置编码:使用车辆的物理位置信息作为编码输入,并添加冗余信息以增强鲁棒性。2) 损失函数:采用强化学习中的标准损失函数,例如PPO或DDPG等。3) 网络结构:Transformer编码器的层数、注意力头数等参数需要根据具体场景进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SPformer模型能够有效利用交通场景中所有车辆的状态信息,获得满足效率和安全目标的高质量驾驶决策。与现有基于DRL的多车辆协同决策算法相比,SPformer在交通效率和安全性方面均有显著提升,具体提升幅度未知,原文未提供具体数值。

🎯 应用场景

该研究成果可应用于智能交通系统、自动驾驶车辆控制等领域,通过提升联网自动驾驶车辆的决策质量,提高交通效率、降低事故风险,并为未来混合交通环境下的车辆协同控制提供技术支撑。该方法还可扩展到其他多智能体协同决策场景,例如机器人编队、无人机集群等。

📄 摘要(原文)

In mixed autonomy traffic environment, every decision made by an autonomous-driving car may have a great impact on the transportation system. Because of the complex interaction between vehicles, it is challenging to make decisions that can ensure both high traffic efficiency and safety now and futher. Connected automated vehicles (CAVs) have great potential to improve the quality of decision-making in this continuous, highly dynamic and interactive environment because of their stronger sensing and communicating ability. For multi-vehicle collaborative decision-making algorithms based on deep reinforcement learning (DRL), we need to represent the interactions between vehicles to obtain interactive features. The representation in this aspect directly affects the learning efficiency and the quality of the learned policy. To this end, we propose a CAV decision-making architecture based on transformer and reinforcement learning algorithms. A learnable policy token is used as the learning medium of the multi-vehicle joint policy, the states of all vehicles in the area of interest can be adaptively noticed in order to extract interactive features among agents. We also design an intuitive physical positional encodings, the redundant location information of which optimizes the performance of the network. Simulations show that our model can make good use of all the state information of vehicles in traffic scenario, so as to obtain high-quality driving decisions that meet efficiency and safety objectives. The comparison shows that our method significantly improves existing DRL-based multi-vehicle cooperative decision-making algorithms.