A Hybrid Input based Deep Reinforcement Learning for Lane Change Decision-Making of Autonomous Vehicle
作者: Ziteng Gao, Jiaqi Qu, Chaoyu Chen
分类: cs.RO
发布日期: 2025-09-01
💡 一句话要点
提出一种混合输入深度强化学习算法,用于提升自动驾驶车辆的变道决策安全性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自动驾驶 变道决策 深度强化学习 轨迹预测 多模态融合
📋 核心要点
- 自动驾驶变道决策复杂且回报高,但现有方法难以充分预测周围车辆行为带来的风险。
- 论文提出混合输入DRL算法,融合周围车辆轨迹预测和多模态环境信息,提升变道决策合理性。
- 实验表明,该方法通过混合状态空间,显著提高了自动驾驶车辆变道决策的安全性。
📝 摘要(中文)
本文提出了一种基于混合输入的深度强化学习(DRL)算法,旨在实现自动驾驶车辆在交通流中的抽象变道决策和变道动作。首先,提出了一种周围车辆轨迹预测方法,以降低周围车辆未来行为对本车造成的风险,并将预测结果作为附加信息输入到强化学习模型中。其次,为了全面利用环境信息,该模型同时提取高维图像和低维传感器数据的特征。周围车辆轨迹预测和多模态信息的融合被用作强化学习的状态空间,以提高变道决策的合理性。最后,我们将强化学习宏观决策与端到端车辆控制相结合,以实现整体的变道过程。在CARLA模拟器中进行的实验结果表明,利用混合状态空间可以显著提高车辆变道决策的安全性。
🔬 方法详解
问题定义:自动驾驶车辆的变道决策是一个复杂的问题,需要考虑周围车辆的运动状态、道路环境以及自身的驾驶目标。现有方法在处理变道决策时,往往难以准确预测周围车辆的未来轨迹,从而导致决策风险增加。此外,单一类型的信息输入也限制了决策的全面性和合理性。
核心思路:本文的核心思路是将周围车辆的轨迹预测信息与多模态环境信息相结合,作为深度强化学习的状态空间,从而提高变道决策的合理性和安全性。通过预测周围车辆的未来行为,可以更准确地评估变道风险;同时,融合图像和传感器数据等多模态信息,可以更全面地了解环境状况。
技术框架:该方法的技术框架主要包括三个模块:周围车辆轨迹预测模块、多模态信息融合模块和深度强化学习决策模块。首先,周围车辆轨迹预测模块利用历史轨迹数据预测周围车辆的未来运动轨迹。然后,多模态信息融合模块将高维图像数据和低维传感器数据进行融合,提取环境特征。最后,深度强化学习决策模块以融合后的环境特征和轨迹预测信息作为输入,输出变道决策。该决策与端到端车辆控制相结合,实现完整的变道过程。
关键创新:该方法的主要创新点在于混合输入状态空间的设计,即将周围车辆轨迹预测信息与多模态环境信息相结合。这种混合输入方式能够更全面、准确地描述环境状态,从而提高强化学习算法的决策能力。与传统的仅使用单一类型信息作为状态空间的方法相比,该方法能够更好地应对复杂的交通环境。
关键设计:在周围车辆轨迹预测模块中,可以使用卡尔曼滤波、LSTM等方法进行轨迹预测。多模态信息融合模块可以使用卷积神经网络(CNN)提取图像特征,并使用全连接网络(FCN)融合传感器数据。深度强化学习决策模块可以使用DQN、DDPG等算法,并根据实际情况设计奖励函数和网络结构。具体的参数设置需要根据实验结果进行调整。
📊 实验亮点
实验结果表明,与传统的基于单一信息输入的强化学习算法相比,该方法能够显著提高自动驾驶车辆变道决策的安全性。具体而言,在CARLA模拟器中,该方法能够减少碰撞事故的发生,并提高变道成功率。量化指标的提升幅度未知,需要在论文中查找具体数据。
🎯 应用场景
该研究成果可应用于自动驾驶车辆的变道决策系统,提高车辆在复杂交通环境下的行驶安全性。此外,该方法也可扩展到其他自动驾驶任务中,如超车、避障等。未来,该研究有望推动自动驾驶技术的进一步发展,并为智能交通系统的建设做出贡献。
📄 摘要(原文)
Lane change decision-making for autonomous vehicles is a complex but high-reward behavior. In this paper, we propose a hybrid input based deep reinforcement learning (DRL) algorithm, which realizes abstract lane change decisions and lane change actions for autonomous vehicles within traffic flow. Firstly, a surrounding vehicles trajectory prediction method is proposed to reduce the risk of future behavior of surrounding vehicles to ego vehicle, and the prediction results are input into the reinforcement learning model as additional information. Secondly, to comprehensively leverage environmental information, the model extracts feature from high-dimensional images and low-dimensional sensor data simultaneously. The fusion of surrounding vehicle trajectory prediction and multi-modal information are used as state space of reinforcement learning to improve the rationality of lane change decision. Finally, we integrate reinforcement learning macro decisions with end-to-end vehicle control to achieve a holistic lane change process. Experiments were conducted within the CARLA simulator, and the results demonstrated that the utilization of a hybrid state space significantly enhances the safety of vehicle lane change decisions.