Bilevel Multi-Armed Bandit-Based Hierarchical Reinforcement Learning for Interaction-Aware Self-Driving at Unsignalized Intersections

作者: Zengqi Peng, Yubin Wang, Lei Zheng, Jun Ma

分类: cs.RO

发布日期: 2025-02-06

备注: This paper has been accepted by IEEE Transactions on Vehicular Technology

💡 一句话要点

提出基于双层多臂老虎机的分层强化学习框架BiM-ACPPO，用于无信号交叉口交互感知自动驾驶。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 强化学习 分层强化学习 多臂老虎机 交互感知 无信号交叉口 模型预测控制

📋 核心要点

现有方法难以有效应对无信号交叉口自动驾驶中周围车辆意图、行为以及数量变化带来的不确定性。
提出BiM-ACPPO框架，利用双层多臂老虎机和分层强化学习，实现交互感知决策和规划，提升泛化能力。
在CARLA模拟器中实验表明，该方法优于基线方法，并在新的城市驾驶场景中展现出良好的泛化性能。

📝 摘要（中文）

本文提出了一种基于双层多臂老虎机的分层强化学习框架BiM-ACPPO，用于在无信号交叉口进行交互感知的决策和规划。该框架主动考虑了周围车辆（SVs）相关的不确定性，包括驾驶员意图、交互行为以及SV数量的变化。引入中间决策变量，使高层强化学习策略能够提供交互感知的参考，以指导低层模型预测控制（MPC），从而进一步增强框架的泛化能力。通过利用无信号交叉口自动驾驶的结构化特性，将强化学习策略的训练问题建模为双层课程学习任务，并通过提出的基于Exp3.S的BiMAB算法解决。值得注意的是，训练课程是动态调整的，从而提高了强化学习训练过程的样本效率。在高保真CARLA模拟器中进行了对比实验，结果表明，与所有基线方法相比，我们的方法取得了优异的性能。此外，在两个新的城市驾驶场景中的实验结果清楚地表明了该方法具有良好的泛化性能。

🔬 方法详解

问题定义：论文旨在解决无信号交叉口自动驾驶车辆的决策和规划问题，尤其关注周围车辆（SVs）带来的不确定性，包括驾驶员意图、交互行为以及SV数量的变化。现有方法难以有效建模和应对这些不确定性，导致决策的鲁棒性和泛化性不足。

核心思路：论文的核心思路是利用分层强化学习框架，将决策过程分解为高层策略和低层控制。高层策略负责交互感知的参考轨迹生成，低层控制负责执行。同时，利用双层多臂老虎机（BiMAB）动态调整训练课程，提高样本效率和泛化能力。

技术框架：BiM-ACPPO框架包含以下主要模块：1) 高层强化学习策略：基于近端策略优化（PPO）算法，学习交互感知的参考轨迹。2) 低层模型预测控制（MPC）：根据高层策略提供的参考轨迹，进行局部轨迹规划和控制。3) 双层多臂老虎机（BiMAB）：根据训练进度动态调整训练课程，提高样本效率。框架首先通过BiMAB选择合适的训练课程，然后高层RL策略生成参考轨迹，低层MPC执行控制，最后根据环境反馈更新RL策略和BiMAB。

关键创新：论文的关键创新在于：1) 提出了BiM-ACPPO框架，将分层强化学习和双层多臂老虎机相结合，实现交互感知的决策和规划。2) 利用BiMAB动态调整训练课程，提高了强化学习的样本效率和泛化能力。3) 引入中间决策变量，使高层RL策略能够提供交互感知的参考，指导低层MPC。

关键设计：BiMAB算法基于Exp3.S算法，用于在不同的训练课程之间进行探索和利用。高层RL策略使用PPO算法进行训练，奖励函数的设计考虑了安全性、舒适性和效率。低层MPC使用二次规划求解器进行轨迹优化。具体参数设置包括：BiMAB的探索率、PPO的学习率、MPC的预测时域等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，BiM-ACPPO在CARLA模拟器中优于所有基线方法，在安全性、舒适性和效率方面均有提升。此外，在两个新的城市驾驶场景中的实验结果表明，该方法具有良好的泛化性能，能够适应不同的交通环境和车辆行为。

🎯 应用场景

该研究成果可应用于自动驾驶车辆在复杂城市交通环境中的决策和规划，尤其是在无信号交叉口等交互频繁的场景。通过提高自动驾驶车辆的交互感知能力和决策鲁棒性，可以提升交通效率和安全性，并为未来智能交通系统的发展提供技术支撑。

📄 摘要（原文）

In this work, we present BiM-ACPPO, a bilevel multi-armed bandit-based hierarchical reinforcement learning framework for interaction-aware decision-making and planning at unsignalized intersections. Essentially, it proactively takes the uncertainties associated with surrounding vehicles (SVs) into consideration, which encompass those stemming from the driver's intention, interactive behaviors, and the varying number of SVs. Intermediate decision variables are introduced to enable the high-level RL policy to provide an interaction-aware reference, for guiding low-level model predictive control (MPC) and further enhancing the generalization ability of the proposed framework. By leveraging the structured nature of self-driving at unsignalized intersections, the training problem of the RL policy is modeled as a bilevel curriculum learning task, which is addressed by the proposed Exp3.S-based BiMAB algorithm. It is noteworthy that the training curricula are dynamically adjusted, thereby facilitating the sample efficiency of the RL training process. Comparative experiments are conducted in the high-fidelity CARLA simulator, and the results indicate that our approach achieves superior performance compared to all baseline methods. Furthermore, experimental results in two new urban driving scenarios clearly demonstrate the commendable generalization performance of the proposed method.

Bilevel Multi-Armed Bandit-Based Hierarchical Reinforcement Learning for Interaction-Aware Self-Driving at Unsignalized Intersections

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理