SigmaRL: A Sample-Efficient and Generalizable Multi-Agent Reinforcement Learning Framework for Motion Planning
作者: Jianye Xu, Pan Hu, Bassam Alrifaee
分类: cs.RO, cs.LG, cs.MA, eess.SY
发布日期: 2024-08-14 (更新: 2025-04-10)
备注: Accepted for presentation at the IEEE International Conference on Intelligent Transportation Systems (ITSC) 2024
DOI: 10.13140/RG.2.2.24505.17769
💡 一句话要点
SigmaRL:一种高效且泛化的多智能体强化学习运动规划框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多智能体强化学习 运动规划 自动驾驶 泛化能力 信息密集型观察
📋 核心要点
- 现有强化学习方法在交通场景中泛化能力不足,通常只能在训练过的相似场景中有效。
- SigmaRL框架通过设计信息密集型观察,提取适用于多种交通场景的通用特征,提升泛化性。
- 实验表明,SigmaRL在单CPU上训练时间短,且在未见过的交通场景中实现了有效的零样本泛化。
📝 摘要(中文)
本文介绍了一个名为SigmaRL的开源、去中心化框架,旨在提高互联自动驾驶车辆运动规划中多智能体强化学习(RL)的样本效率和泛化能力。大多数RL智能体的泛化能力有限,通常只关注特定场景,并且通常在训练期间看到的相似或相同场景中进行评估。已经提出了各种方法来应对这些挑战,包括经验回放和正则化。然而,RL中的观察设计如何影响样本效率和泛化仍然是一个未被充分探索的领域。我们通过提出五种设计信息密集型观察的策略来解决这一差距,重点关注适用于大多数交通场景的通用特征。我们使用这些策略在交叉路口训练我们的RL智能体,并通过跨完全未见过的交通场景(包括新的交叉路口、匝道和环形交叉路口)的数值实验来评估它们的泛化能力。结合这些信息密集型观察,可将单CPU上的训练时间缩短至一小时以下,并且评估结果表明,我们的RL智能体可以有效地进行零样本泛化。
🔬 方法详解
问题定义:现有基于强化学习的自动驾驶运动规划方法,在面对新的、未知的交通场景时,泛化能力较差。智能体往往只能在训练过的特定场景中表现良好,无法适应复杂多变的真实交通环境。现有方法对观察的设计不够充分,导致样本效率低,训练时间长。
核心思路:SigmaRL的核心思路是通过精心设计信息密集型的观察,使智能体能够学习到更通用的交通规则和驾驶策略。通过提取适用于多种交通场景的通用特征,提高智能体的泛化能力,使其能够在未见过的场景中也能做出合理的决策。
技术框架:SigmaRL是一个去中心化的多智能体强化学习框架。每个车辆都作为一个独立的智能体,通过局部观察做出决策。框架主要包含以下几个阶段:1) 环境建模:构建交通环境模型,包括道路结构、车辆状态等;2) 观察设计:设计信息密集型的观察,提取通用特征;3) 强化学习训练:使用强化学习算法训练智能体;4) 泛化评估:在未见过的交通场景中评估智能体的性能。
关键创新:SigmaRL的关键创新在于其信息密集型观察的设计。论文提出了五种策略来设计观察,包括:1) 考虑车辆之间的相对位置和速度;2) 提取道路结构信息;3) 考虑交通信号灯的状态;4) 预测其他车辆的未来轨迹;5) 使用注意力机制来关注重要的信息。这些策略使得智能体能够更全面地了解交通环境,从而提高泛化能力。
关键设计:论文中使用了Actor-Critic算法进行训练。Actor网络负责输出动作,Critic网络负责评估动作的价值。损失函数包括Actor损失和Critic损失。网络结构使用了多层感知机(MLP)。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
SigmaRL框架在交叉路口、匝道和环形交叉路口等多种未见过的交通场景中进行了评估,实现了有效的零样本泛化。在单CPU上,训练时间缩短至一小时以下,显著提高了训练效率。这些结果表明,SigmaRL框架具有很强的实用性和泛化能力。
🎯 应用场景
SigmaRL框架可应用于自动驾驶车辆的运动规划,尤其是在复杂交通环境下的决策。该框架能够提高自动驾驶系统的安全性和效率,减少交通事故的发生。此外,该研究对于推动多智能体强化学习在交通领域的应用具有重要意义,并为未来的智能交通系统发展奠定基础。
📄 摘要(原文)
This paper introduces an open-source, decentralized framework named SigmaRL, designed to enhance both sample efficiency and generalization of multi-agent Reinforcement Learning (RL) for motion planning of connected and automated vehicles. Most RL agents exhibit a limited capacity to generalize, often focusing narrowly on specific scenarios, and are usually evaluated in similar or even the same scenarios seen during training. Various methods have been proposed to address these challenges, including experience replay and regularization. However, how observation design in RL affects sample efficiency and generalization remains an under-explored area. We address this gap by proposing five strategies to design information-dense observations, focusing on general features that are applicable to most traffic scenarios. We train our RL agents using these strategies on an intersection and evaluate their generalization through numerical experiments across completely unseen traffic scenarios, including a new intersection, an on-ramp, and a roundabout. Incorporating these information-dense observations reduces training times to under one hour on a single CPU, and the evaluation results reveal that our RL agents can effectively zero-shot generalize. Code: github.com/bassamlab/SigmaRL