Adaptive Kalman-based hybrid car following strategy using TD3 and CACC

📄 arXiv: 2312.15993v1 📥 PDF

作者: Yuqi Zheng, Ruidong Yan, Bin Jia, Rui Jiang, Adriana TAPUS, Xiaojing Chen, Shiteng Zheng, Ying Shang

分类: cs.AI, cs.RO, eess.SY

发布日期: 2023-12-26

备注: 32pages,13figures


💡 一句话要点

提出基于自适应卡尔曼滤波的混合跟车策略,提升混合交通流中自动驾驶安全性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 跟车控制 卡尔曼滤波 深度强化学习 CACC 混合交通流 TD3 自适应控制

📋 核心要点

  1. 传统基于固定系数的混合策略难以适应混合交通流,可能降低性能甚至导致事故。
  2. 提出基于自适应卡尔曼滤波的混合策略,利用卡尔曼增益动态调整CACC和TD3的权重。
  3. 仿真结果表明,该算法显著提升了混合交通流中跟车的安全性,且不影响舒适性和效率。

📝 摘要(中文)

本文提出了一种基于自适应卡尔曼滤波的混合跟车策略,该策略融合了合作式自适应巡航控制(CACC)和双延迟深度确定性策略梯度(TD3)算法。与基于固定系数的传统混合策略不同,该方法将卡尔曼增益H作为自适应系数,通过多步预测和蒙特卡洛树搜索获得。仿真结果表明,经过4157745个时间步的训练,与TD3和HCFS算法相比,该算法在不牺牲舒适性和效率的前提下,显著提高了混合交通流中跟车的安全性。

🔬 方法详解

问题定义:论文旨在解决混合交通流场景下,传统基于固定系数的深度强化学习与合作式自适应巡航控制(CACC)混合跟车策略难以适应复杂环境,导致安全性下降的问题。现有方法无法根据交通状况动态调整两种控制策略的权重,容易在不同场景下表现不佳。

核心思路:论文的核心思路是利用卡尔曼滤波的自适应能力,动态调整CACC和TD3算法的权重。通过将卡尔曼增益作为自适应系数,根据多步预测和蒙特卡洛树搜索的结果,实时优化两种控制策略的融合比例,从而更好地适应混合交通流的变化。

技术框架:整体框架包含以下几个主要模块:1) 环境感知模块:获取车辆周围环境信息,包括车距、速度差等。2) 多步预测模块:利用历史数据预测未来一段时间内的交通状况。3) 蒙特卡洛树搜索模块:基于预测结果,搜索最优的卡尔曼增益。4) 卡尔曼滤波模块:根据蒙特卡洛树搜索的结果,计算自适应系数,融合CACC和TD3的控制输出。5) 控制执行模块:将融合后的控制指令发送给车辆执行。

关键创新:最重要的技术创新点在于使用自适应卡尔曼滤波动态调整CACC和TD3的权重。与传统固定系数的混合策略相比,该方法能够根据交通状况实时优化控制策略,从而提高跟车安全性。此外,利用多步预测和蒙特卡洛树搜索来估计卡尔曼增益,也提高了自适应系数的准确性。

关键设计:论文中,卡尔曼滤波器的状态向量可能包含车距、速度差等信息。观测模型和状态转移模型需要根据实际交通场景进行设计。蒙特卡洛树搜索的奖励函数需要综合考虑安全性、舒适性和效率等因素。TD3算法的网络结构和训练参数需要根据具体问题进行调整。具体参数设置在论文中可能没有详细给出,需要根据实际情况进行调整。

📊 实验亮点

仿真结果表明,与TD3和HCFS算法相比,该算法在不牺牲舒适性和效率的前提下,显著提高了混合交通流中跟车的安全性。具体提升幅度未知,需要在论文中查找具体数据。经过4157745个时间步的训练,证明了该算法的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶车辆的跟车控制系统,尤其是在混合交通流环境下。通过自适应地调整控制策略,可以提高自动驾驶车辆的安全性、舒适性和效率。此外,该方法还可以推广到其他需要融合多种控制策略的场景,例如机器人导航、无人机控制等。

📄 摘要(原文)

In autonomous driving, the hybrid strategy of deep reinforcement learning and cooperative adaptive cruise control (CACC) can fully utilize the advantages of the two algorithms and significantly improve the performance of car following. However, it is challenging for the traditional hybrid strategy based on fixed coefficients to adapt to mixed traffic flow scenarios, which may decrease the performance and even lead to accidents. To address the above problems, a hybrid car following strategy based on an adaptive Kalman Filter is proposed by regarding CACC and Twin Delayed Deep Deterministic Policy Gradient (TD3) algorithms. Different from traditional hybrid strategy based on fixed coefficients, the Kalman gain H, using as an adaptive coefficient, is derived from multi-timestep predictions and Monte Carlo Tree Search. At the end of study, simulation results with 4157745 timesteps indicate that, compared with the TD3 and HCFS algorithms, the proposed algorithm in this study can substantially enhance the safety of car following in mixed traffic flow without compromising the comfort and efficiency.