Prediction of Lane Change Intentions of Human Drivers using an LSTM, a CNN and a Transformer
作者: Francesco De Cristofaro, Felix Hofbaur, Aixi Yang, Arno Eichberger
分类: cs.LG
发布日期: 2025-07-11
备注: 14 pages, 18 figures
💡 一句话要点
利用LSTM、CNN和Transformer预测人类驾驶员的变道意图
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 变道意图预测 LSTM CNN Transformer 自动驾驶 深度学习 highD数据集 行为预测
📋 核心要点
- 现有方法在预测变道意图时,较少关注预测特定时间间隔内的变道行为,缺乏对不同模型架构的系统性比较。
- 本文提出使用LSTM、CNN和Transformer三种网络结构来预测人类驾驶员的变道意图,并比较不同输入配置下的性能。
- 实验结果表明,Transformer网络在预测变道意图方面表现最佳,且不易过拟合,准确率最高可达96.73%。
📝 摘要(中文)
车辆变道行为对自动驾驶车辆的运动规划有重要影响,尤其是在复杂的交通状况下。预测变道行为有助于提高公共安全和效率。虽然已有大量研究,但与预测特定时间点的变道意图相比,针对预测一段时间间隔内的变道行为的研究较少。此外,缺乏不同架构之间的比较,以确定最佳模型并评估如何正确选择模型输入。本文描述并实现了LSTM、CNN和Transformer网络,用于预测人类驾驶员的变道意图。本文展示了如何从公开数据集(highD)准备数据,使用了哪些特征,如何设计网络,并比较了三种网络在不同输入配置下的结果。研究发现,Transformer网络优于其他网络,且不易过拟合。该方法的准确率在82.79%到96.73%之间,对于不同的输入配置,表现出良好的性能,同时考虑了精确率和召回率。
🔬 方法详解
问题定义:论文旨在解决自动驾驶中准确预测人类驾驶员变道意图的问题。现有方法主要集中在预测特定时间点的变道行为,而忽略了预测一段时间间隔内的变道意图。此外,缺乏对不同深度学习架构(如LSTM、CNN和Transformer)的系统性比较,难以确定最佳模型和输入特征选择策略。
核心思路:论文的核心思路是利用深度学习模型学习车辆的历史行为和周围环境信息,从而预测驾驶员在未来一段时间内的变道意图。通过比较LSTM、CNN和Transformer三种不同的网络结构,探索哪种模型更适合捕捉变道行为的时序依赖性和空间关系。
技术框架:整体框架包括数据预处理、模型构建和训练、以及性能评估三个主要阶段。首先,从highD数据集中提取车辆轨迹、速度、加速度等特征,并进行数据清洗和格式转换。然后,分别构建LSTM、CNN和Transformer网络,并使用处理后的数据进行训练。最后,使用测试集评估模型的准确率、精确率和召回率等指标。
关键创新:论文的关键创新在于对LSTM、CNN和Transformer三种不同的深度学习架构进行了比较,以确定最适合预测变道意图的模型。此外,论文还探索了不同输入特征配置对模型性能的影响,为实际应用中选择合适的输入数据提供了指导。
关键设计:LSTM网络采用多层循环神经网络结构,用于捕捉变道行为的时序依赖性。CNN网络采用卷积神经网络结构,用于提取车辆周围环境的空间特征。Transformer网络采用自注意力机制,用于捕捉不同时间步长和不同特征之间的关系。损失函数采用交叉熵损失函数,优化器采用Adam优化器。具体参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Transformer网络在预测变道意图方面表现最佳,优于LSTM和CNN网络。Transformer网络在不同输入配置下均表现出良好的性能,且不易过拟合。最佳配置下,Transformer网络的准确率高达96.73%,同时具有较高的精确率和召回率。这些结果表明,Transformer网络能够有效地捕捉变道行为的时序依赖性和空间关系。
🎯 应用场景
该研究成果可应用于高级驾驶辅助系统(ADAS)和自动驾驶系统,提高车辆对周围交通环境的感知能力,从而做出更安全、更高效的决策。准确预测变道意图可以减少交通事故,提高交通效率,并改善驾驶体验。未来,该研究可以扩展到更复杂的交通场景,例如城市道路和高速公路匝道。
📄 摘要(原文)
Lane changes of preceding vehicles have a great impact on the motion planning of automated vehicles especially in complex traffic situations. Predicting them would benefit the public in terms of safety and efficiency. While many research efforts have been made in this direction, few concentrated on predicting maneuvers within a set time interval compared to predicting at a set prediction time. In addition, there exist a lack of comparisons between different architectures to try to determine the best performing one and to assess how to correctly choose the input for such models. In this paper the structure of an LSTM, a CNN and a Transformer network are described and implemented to predict the intention of human drivers to perform a lane change. We show how the data was prepared starting from a publicly available dataset (highD), which features were used, how the networks were designed and finally we compare the results of the three networks with different configurations of input data. We found that transformer networks performed better than the other networks and was less affected by overfitting. The accuracy of the method spanned from $82.79\%$ to $96.73\%$ for different input configurations and showed overall good performances considering also precision and recall.