Multi-Agent Probabilistic Ensembles with Trajectory Sampling for Connected Autonomous Vehicles

📄 arXiv: 2312.13910v3 📥 PDF

作者: Ruoqi Wen, Jiahao Huang, Rongpeng Li, Guoru Ding, Zhifeng Zhao

分类: cs.RO, cs.LG, cs.MA

发布日期: 2023-12-21 (更新: 2024-07-17)


💡 一句话要点

提出基于轨迹采样的多智能体概率集成算法MA-PETS,解决连通自动驾驶车辆的决策问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 连通自动驾驶车辆 概率集成 轨迹采样 模型预测控制

📋 核心要点

  1. 现有强化学习方法在连通自动驾驶车辆决策中存在数据需求高、学习不稳定以及忽略多智能体通信等问题。
  2. MA-PETS算法利用概率集成网络学习环境不确定性,并结合轨迹采样进行模型预测控制,实现高效决策。
  3. 实验结果表明,MA-PETS在样本效率上可与无模型强化学习相媲美,验证了其优越性。

📝 摘要(中文)

近年来,自动驾驶车辆(AVs)备受关注,强化学习(RL)在提高车辆自主性方面表现出色。在互联自动驾驶车辆(CAVs)中,广泛采用的无模型强化学习(MFRL)有望解决决策问题,但这依赖于大量训练数据样本的准备,这在实践中可能不可行,并可能导致学习不稳定。相比之下,基于模型的强化学习(MBRL)在样本效率方面表现出色,但MBRL的渐近性能可能落后于最先进的MFRL算法。此外,大多数CAV研究仅限于单个AV的决策,从而因缺乏通信而降低了性能。本研究旨在解决多个CAV在有限通信下的决策问题,并提出了一种分散式的多智能体概率集成与轨迹采样算法MA-PETS。MA-PETS利用概率集成(PE)神经网络从相邻CAV之间通信的样本中学习,以更好地捕捉未知环境的不确定性。然后,MA-PETS能够开发基于轨迹采样(TS)的模型预测控制来进行决策。在此基础上,我们推导了受通信范围内智能体数量影响的多智能体群组遗憾界限,并通过数学验证了将智能体之间的有效信息交换纳入多智能体学习方案有助于减少最坏情况下的群组遗憾界限。最后,我们通过实验证明了MA-PETS在样本效率方面优于MFBL。

🔬 方法详解

问题定义:论文旨在解决多个连通自动驾驶车辆(CAVs)在有限通信条件下的协同决策问题。现有方法,如无模型强化学习(MFRL),需要大量数据,且可能不稳定;基于模型的强化学习(MBRL)虽然样本效率高,但性能可能不如MFRL。此外,现有研究大多集中于单个AV的决策,忽略了多智能体通信带来的性能提升潜力。

核心思路:论文的核心思路是利用概率集成(Probabilistic Ensemble, PE)网络来学习环境的不确定性,并通过轨迹采样(Trajectory Sampling, TS)进行模型预测控制。PE网络能够捕捉环境动态的不确定性,从而提高决策的鲁棒性。轨迹采样则允许算法在有限的计算资源下,探索更有希望的轨迹,提高样本效率。通过智能体间的通信,可以共享经验,加速学习过程。

技术框架:MA-PETS算法的整体框架如下:1) 信息收集:每个CAV收集自身传感器数据和来自邻近CAV的通信数据。2) 概率集成学习:使用PE网络学习环境模型,捕捉环境的不确定性。3) 轨迹采样:基于学习到的模型,使用TS方法生成多个候选轨迹。4) 决策优化:根据预测的轨迹,选择最优的动作。5) 动作执行与信息共享:执行选定的动作,并将经验(状态、动作、奖励)与其他CAV共享。

关键创新:MA-PETS的关键创新在于将概率集成网络和轨迹采样方法结合,并应用于多智能体连通自动驾驶场景。与传统的确定性模型相比,PE网络能够更好地处理环境的不确定性。轨迹采样则提高了样本效率,使得算法能够在有限的计算资源下进行有效的探索。此外,论文还从理论上分析了多智能体通信对群组遗憾界限的影响。

关键设计:PE网络通常由多个神经网络组成,每个网络学习不同的环境模型。损失函数通常包括预测误差和正则化项,以防止过拟合。轨迹采样可以使用不同的采样策略,如随机采样、重要性采样等。论文中具体使用的PE网络结构、损失函数和采样策略未知。

📊 实验亮点

论文通过实验验证了MA-PETS算法的有效性,表明其在样本效率方面可与无模型强化学习算法相媲美。具体的性能数据和对比基线未知,但摘要强调了MA-PETS在有限通信条件下,能够实现高效的协同决策,并降低群组遗憾界限。

🎯 应用场景

该研究成果可应用于智能交通系统、自动驾驶车队管理、无人配送等领域。通过提高自动驾驶车辆在复杂环境下的决策能力,可以提升交通效率、降低事故率,并为未来的智能城市建设提供技术支撑。该研究对于实现安全、高效、协同的自动驾驶具有重要意义。

📄 摘要(原文)

Autonomous Vehicles (AVs) have attracted significant attention in recent years and Reinforcement Learning (RL) has shown remarkable performance in improving the autonomy of vehicles. In that regard, the widely adopted Model-Free RL (MFRL) promises to solve decision-making tasks in connected AVs (CAVs), contingent on the readiness of a significant amount of data samples for training. Nevertheless, it might be infeasible in practice and possibly lead to learning instability. In contrast, Model-Based RL (MBRL) manifests itself in sample-efficient learning, but the asymptotic performance of MBRL might lag behind the state-of-the-art MFRL algorithms. Furthermore, most studies for CAVs are limited to the decision-making of a single AV only, thus underscoring the performance due to the absence of communications. In this study, we try to address the decision-making problem of multiple CAVs with limited communications and propose a decentralized Multi-Agent Probabilistic Ensembles with Trajectory Sampling algorithm MA-PETS. In particular, in order to better capture the uncertainty of the unknown environment, MA-PETS leverages Probabilistic Ensemble (PE) neural networks to learn from communicated samples among neighboring CAVs. Afterwards, MA-PETS capably develops Trajectory Sampling (TS)-based model-predictive control for decision-making. On this basis, we derive the multi-agent group regret bound affected by the number of agents within the communication range and mathematically validate that incorporating effective information exchange among agents into the multi-agent learning scheme contributes to reducing the group regret bound in the worst case. Finally, we empirically demonstrate the superiority of MA-PETS in terms of the sample efficiency comparable to MFBL.