An Extended Benchmarking of Multi-Agent Reinforcement Learning Algorithms in Complex Fully Cooperative Tasks

📄 arXiv: 2502.04773v2 📥 PDF

作者: George Papadopoulos, Andreas Kontogiannis, Foteini Papadopoulou, Chaido Poulianou, Ioannis Koumentis, George Vouros

分类: cs.LG

发布日期: 2025-02-07 (更新: 2025-07-03)


💡 一句话要点

扩展多智能体强化学习基准测试,揭示复杂合作任务中算法性能瓶颈

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 基准测试 合作任务 图像观测 PyMARLzoo+ 算法评估 复杂环境

📋 核心要点

  1. 现有MARL评估缺乏多样性,主要集中在团队游戏场景,未能充分评估智能体在复杂合作任务中的能力。
  2. 论文通过扩展MARL基准测试,特别是引入图像观测等高维输入,更全面地评估算法在完全合作任务中的性能。
  3. 实验表明,在SMAC和GRF上表现优异的算法,在完全合作基准上可能不如标准MARL基线,突显了现有评估的局限性。

📝 摘要(中文)

多智能体强化学习(MARL)近年来备受关注。然而,MARL的评估常常缺乏系统的多样性,阻碍了对算法能力的全面理解。特别是,合作MARL算法主要在SMAC和GRF等基准上进行评估,这些基准主要包含团队游戏场景,而没有充分评估在完全合作的现实世界任务(如多机器人合作、仓库、资源管理、搜索和救援以及人机合作)中所需的智能体能力。此外,MARL算法主要在低维状态空间上进行评估,因此它们在高维(例如,图像)观测上的性能尚未得到充分研究。为了填补这一空白,本文强调了在更广泛的现有基准中扩展系统评估的关键需求。为此,我们对已知的MARL算法在复杂的完全合作基准上进行了广泛的评估和比较,包括以图像作为智能体观测的任务。有趣的是,我们的分析表明,许多在SMAC和GRF上被誉为最先进的算法,在完全合作的基准上可能表现不如标准的MARL基线。最后,为了更系统和更好地评估合作MARL算法,我们开源了PyMARLzoo+,它是广泛使用的(E)PyMARL库的扩展,解决了[TBG++21]中的一个开放挑战,促进了与PettingZoo的所有基准以及Overcooked、PressurePlate、Capture Target和Box Pushing的无缝集成和支持。

🔬 方法详解

问题定义:现有MARL算法的评估主要集中在SMAC和GRF等团队游戏场景,这些场景无法充分代表现实世界中完全合作任务的复杂性,例如多机器人协同、资源管理等。此外,现有评估大多基于低维状态空间,忽略了高维图像观测对算法性能的影响。因此,需要更全面、更具挑战性的基准测试来评估MARL算法在复杂合作任务中的能力。

核心思路:论文的核心思路是通过扩展现有的MARL基准测试集,引入更多样化的任务和环境,特别是包含图像观测的复杂合作任务。通过在这些扩展的基准上评估现有MARL算法,可以更全面地了解算法的优缺点,并发现现有评估方法的局限性。

技术框架:论文主要通过实验评估来研究不同MARL算法在扩展基准上的性能。具体而言,作者使用了PyMARLzoo+,这是一个基于(E)PyMARL的扩展库,支持PettingZoo的所有基准以及Overcooked、PressurePlate、Capture Target和Box Pushing等任务。通过PyMARLzoo+,可以方便地集成和评估各种MARL算法。

关键创新:论文的关键创新在于扩展了MARL基准测试集,使其包含更多样化的任务和环境,特别是包含图像观测的复杂合作任务。这使得可以更全面地评估MARL算法在现实世界中的应用潜力。此外,开源的PyMARLzoo+库也为MARL研究提供了便利的工具。

关键设计:论文主要关注实验评估,没有提出新的MARL算法。实验中,作者选择了多个经典的MARL算法作为基线,并在扩展的基准测试集上进行了评估。具体的参数设置和网络结构取决于所使用的MARL算法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在SMAC和GRF等传统基准上表现良好的MARL算法,在完全合作的复杂基准上可能表现不如标准MARL基线。例如,某些在SMAC上被认为是state-of-the-art的算法,在Overcooked等任务上的表现并不理想。这突显了现有评估方法的局限性,并强调了扩展MARL基准测试的必要性。

🎯 应用场景

该研究成果可应用于多机器人协同、智能仓库管理、搜索救援、人机协作等领域。通过更全面地评估MARL算法在复杂合作任务中的性能,可以更好地选择和优化算法,从而提高这些应用场景的效率和可靠性。未来的研究可以基于这些扩展的基准测试,开发更适用于复杂合作任务的MARL算法。

📄 摘要(原文)

Multi-Agent Reinforcement Learning (MARL) has recently emerged as a significant area of research. However, MARL evaluation often lacks systematic diversity, hindering a comprehensive understanding of algorithms' capabilities. In particular, cooperative MARL algorithms are predominantly evaluated on benchmarks such as SMAC and GRF, which primarily feature team game scenarios without assessing adequately various aspects of agents' capabilities required in fully cooperative real-world tasks such as multi-robot cooperation and warehouse, resource management, search and rescue, and human-AI cooperation. Moreover, MARL algorithms are mainly evaluated on low dimensional state spaces, and thus their performance on high-dimensional (e.g., image) observations is not well-studied. To fill this gap, this paper highlights the crucial need for expanding systematic evaluation across a wider array of existing benchmarks. To this end, we conduct extensive evaluation and comparisons of well-known MARL algorithms on complex fully cooperative benchmarks, including tasks with images as agents' observations. Interestingly, our analysis shows that many algorithms, hailed as state-of-the-art on SMAC and GRF, may underperform standard MARL baselines on fully cooperative benchmarks. Finally, towards more systematic and better evaluation of cooperative MARL algorithms, we have open-sourced PyMARLzoo+, an extension of the widely used (E)PyMARL libraries, which addresses an open challenge from [TBG++21], facilitating seamless integration and support with all benchmarks of PettingZoo, as well as Overcooked, PressurePlate, Capture Target and Box Pushing.