MARL-LNS: Cooperative Multi-agent Reinforcement Learning via Large Neighborhoods Search

📄 arXiv: 2404.03101v1 📥 PDF

作者: Weizhe Chen, Sven Koenig, Bistra Dilkina

分类: cs.MA, cs.LG

发布日期: 2024-04-03


💡 一句话要点

提出MARL-LNS以解决多智能体强化学习训练效率低下问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 训练效率 大邻域搜索 深度学习 算法优化

📋 核心要点

  1. 现有的多智能体强化学习方法在训练效率上存在显著不足,尤其是在高维度环境中,收敛速度慢且训练时间长。
  2. 本文提出的MARL-LNS框架通过交替训练智能体子集,利用现有的深度MARL算法作为低级训练器,避免了额外参数的训练。
  3. 实验结果显示,MARL-LNS在多个基准测试中,训练时间减少至少10%,且最终技能水平与传统方法相当,验证了其有效性。

📝 摘要(中文)

合作多智能体强化学习(MARL)在过去五年中逐渐成为重要的研究领域,因其在现实应用中的巨大潜力。然而,现有的“集中训练、分散执行”框架由于维度诅咒,训练时间长且收敛效率低。本文提出了一种通用训练框架MARL-LNS,通过使用现有的深度MARL算法作为低级训练器,交替训练智能体子集,解决了这些问题。基于该框架,本文提供了三种算法变体:随机大邻域搜索(RLNS)、批量大邻域搜索(BLNS)和自适应大邻域搜索(ALNS),它们以不同方式交替智能体子集。实验结果表明,所提算法在StarCraft多智能体挑战和Google Research Football上,训练时间至少减少10%,同时达到与原算法相同的最终技能水平。

🔬 方法详解

问题定义:本文旨在解决多智能体强化学习(MARL)中的训练效率低下问题,现有的集中训练、分散执行框架在高维环境中面临维度诅咒,导致训练时间长且收敛困难。

核心思路:MARL-LNS框架通过交替训练智能体的子集,利用现有的深度MARL算法作为低级训练器,从而有效降低训练时间而不增加额外的参数。

技术框架:该框架包含三个主要模块:随机大邻域搜索(RLNS)、批量大邻域搜索(BLNS)和自适应大邻域搜索(ALNS),每种方法以不同方式选择和交替训练智能体子集。

关键创新:最重要的创新在于通过交替训练智能体子集来提高训练效率,这一方法与传统的集中训练方式本质上不同,避免了维度诅咒的影响。

关键设计:在算法设计中,未引入额外的训练参数,保持了模型的简洁性,同时通过不同的子集选择策略来优化训练过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MARL-LNS在StarCraft多智能体挑战和Google Research Football中,训练时间减少至少10%,而最终技能水平与传统算法相当。这一显著提升验证了所提方法的有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括多智能体系统的协调与控制,如无人机编队、智能交通系统和机器人团队合作等。通过提高训练效率,MARL-LNS能够加速这些系统的开发与部署,具有重要的实际价值和未来影响。

📄 摘要(原文)

Cooperative multi-agent reinforcement learning (MARL) has been an increasingly important research topic in the last half-decade because of its great potential for real-world applications. Because of the curse of dimensionality, the popular "centralized training decentralized execution" framework requires a long time in training, yet still cannot converge efficiently. In this paper, we propose a general training framework, MARL-LNS, to algorithmically address these issues by training on alternating subsets of agents using existing deep MARL algorithms as low-level trainers, while not involving any additional parameters to be trained. Based on this framework, we provide three algorithm variants based on the framework: random large neighborhood search (RLNS), batch large neighborhood search (BLNS), and adaptive large neighborhood search (ALNS), which alternate the subsets of agents differently. We test our algorithms on both the StarCraft Multi-Agent Challenge and Google Research Football, showing that our algorithms can automatically reduce at least 10% of training time while reaching the same final skill level as the original algorithm.