IntersectionZoo: Eco-driving for Benchmarking Multi-Agent Contextual Reinforcement Learning
作者: Vindula Jayawardana, Baptiste Freydt, Ao Qu, Cameron Hickert, Zhongxia Yan, Cathy Wu
分类: cs.LG, cs.AI, cs.MA, eess.SY
发布日期: 2024-10-19
备注: In review
💡 一句话要点
提出IntersectionZoo:用于多智能体上下文强化学习的基准测试平台,解决城市道路网络合作节能驾驶问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多智能体强化学习 上下文强化学习 基准测试 智能交通 节能驾驶 交通仿真 泛化能力
📋 核心要点
- 现实世界多智能体强化学习应用面临泛化性挑战,现有方法难以应对不同场景变化。
- 提出IntersectionZoo基准测试平台,模拟城市交通合作节能驾驶,提供数据驱动的真实场景。
- 实验表明,现有流行的多智能体强化学习算法在IntersectionZoo的上下文强化学习设置中泛化能力不足。
📝 摘要(中文)
尽管多智能体强化学习(RL)在模拟和双人博弈应用中很受欢迎,但其在复杂的现实世界应用中的成功受到限制。一个关键挑战在于其在问题变化中的泛化能力,这对于许多现实世界问题来说是常见的需求。上下文强化学习(CRL)形式化了学习在问题变化中泛化的策略。然而,缺乏多智能体CRL的标准基准阻碍了该领域的发展。理想的基准应基于现实世界的应用,以自然地捕捉影响泛化的现实世界问题的许多开放挑战。为了弥合这一差距,我们提出了IntersectionZoo,这是一个全面的多智能体CRL基准测试套件,通过城市道路网络中合作节能驾驶的现实世界应用。合作节能驾驶的任务是控制车队以减少车队层面的车辆排放。通过将IntersectionZoo建立在现实世界的应用中,我们自然地捕捉到了现实世界问题的特征,例如部分可观测性和多个相互竞争的目标。IntersectionZoo建立在来自美国10个主要城市的16334个信号交叉路口的数据驱动模拟之上,并在一个开源的工业级微观交通模拟器中建模。通过对影响车辆尾气排放的因素(例如,温度、道路状况、交通需求)进行建模,IntersectionZoo提供了一百万个数据驱动的交通场景。使用这些交通场景,我们对流行的多智能体RL和类人驾驶算法进行了基准测试,并证明了流行的多智能体RL算法难以在CRL设置中泛化。
🔬 方法详解
问题定义:论文旨在解决多智能体强化学习在现实世界应用中泛化能力不足的问题,尤其是在城市交通网络中的合作节能驾驶场景。现有方法难以适应不同交通状况、道路条件等变化,导致性能下降。
核心思路:论文的核心思路是构建一个基于真实数据的、多样化的基准测试环境IntersectionZoo,用于评估和提升多智能体上下文强化学习算法的泛化能力。通过模拟真实的交通场景,可以更好地捕捉现实世界问题的复杂性和挑战。
技术框架:IntersectionZoo的整体框架包括以下几个主要部分:1) 数据收集与处理:收集来自美国10个主要城市的16334个信号交叉路口的数据,包括交通流量、道路状况等信息。2) 交通模拟器:使用开源的工业级微观交通模拟器(具体名称未知)对交通场景进行建模。3) 环境建模:对影响车辆排放的因素(如温度、道路状况、交通需求)进行建模,生成一百万个数据驱动的交通场景。4) 算法评估:提供标准化的接口和评估指标,用于评估多智能体强化学习算法在不同交通场景下的性能。
关键创新:IntersectionZoo的关键创新在于其真实性和多样性。它基于真实世界的交通数据,并模拟了各种影响车辆排放的因素,从而创建了一个更具挑战性和代表性的测试环境。此外,它还提供了一百万个不同的交通场景,可以更全面地评估算法的泛化能力。
关键设计:论文中没有详细描述具体的参数设置、损失函数或网络结构等技术细节。但可以推测,在模拟器中,可能需要设置车辆的加速度、速度、转向角度等参数,以及交通信号灯的配时方案。在评估算法时,可能需要定义奖励函数,以鼓励车辆减少排放、提高通行效率等。
🖼️ 关键图片
📊 实验亮点
论文通过在IntersectionZoo上对流行的多智能体RL算法和类人驾驶算法进行基准测试,证明了现有算法在上下文强化学习设置中的泛化能力不足。具体性能数据和对比基线在摘要中未提供,但结论明确指出需要开发更具泛化能力的算法。
🎯 应用场景
该研究成果可应用于智能交通系统、自动驾驶、车队管理等领域。通过使用IntersectionZoo进行算法评估和优化,可以开发出更具鲁棒性和泛化能力的智能驾驶策略,从而减少城市交通拥堵、降低车辆排放、提高交通效率,最终实现可持续的城市交通。
📄 摘要(原文)
Despite the popularity of multi-agent reinforcement learning (RL) in simulated and two-player applications, its success in messy real-world applications has been limited. A key challenge lies in its generalizability across problem variations, a common necessity for many real-world problems. Contextual reinforcement learning (CRL) formalizes learning policies that generalize across problem variations. However, the lack of standardized benchmarks for multi-agent CRL has hindered progress in the field. Such benchmarks are desired to be based on real-world applications to naturally capture the many open challenges of real-world problems that affect generalization. To bridge this gap, we propose IntersectionZoo, a comprehensive benchmark suite for multi-agent CRL through the real-world application of cooperative eco-driving in urban road networks. The task of cooperative eco-driving is to control a fleet of vehicles to reduce fleet-level vehicular emissions. By grounding IntersectionZoo in a real-world application, we naturally capture real-world problem characteristics, such as partial observability and multiple competing objectives. IntersectionZoo is built on data-informed simulations of 16,334 signalized intersections derived from 10 major US cities, modeled in an open-source industry-grade microscopic traffic simulator. By modeling factors affecting vehicular exhaust emissions (e.g., temperature, road conditions, travel demand), IntersectionZoo provides one million data-driven traffic scenarios. Using these traffic scenarios, we benchmark popular multi-agent RL and human-like driving algorithms and demonstrate that the popular multi-agent RL algorithms struggle to generalize in CRL settings.