Value-Based Deep Multi-Agent Reinforcement Learning with Dynamic Sparse Training

📄 arXiv: 2409.19391v1 📥 PDF

作者: Pihe Hu, Shaolong Li, Zhuoran Li, Ling Pan, Longbo Huang

分类: cs.LG

发布日期: 2024-09-28


💡 一句话要点

提出MAST框架,通过动态稀疏训练提升多智能体强化学习效率并压缩模型。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 动态稀疏训练 值学习 模型压缩 深度学习

📋 核心要点

  1. 深度MARL计算开销大,模型压缩需求迫切,直接应用动态稀疏训练(DST)效果不佳,导致值学习崩溃。
  2. 提出MAST框架,通过增强学习目标的可靠性和样本分布的合理性,改善稀疏模型中的值学习。
  3. 实验表明,MAST能显著降低训练和推理的FLOPs,最高可达20倍,且性能下降小于3%。

📝 摘要(中文)

深度多智能体强化学习(MARL)依赖于具有大量参数的神经网络,这通常导致巨大的计算开销。因此,迫切需要加速MARL的训练并实现模型压缩。本文提出利用动态稀疏训练(DST)来减轻MARL训练中的计算负担,DST已被证明在深度监督学习任务中有效。然而,直接采用DST无法产生令人满意的MARL智能体,导致深度稀疏值基MARL模型中的值学习崩溃。受此挑战的推动,我们引入了一种创新的多智能体稀疏训练(MAST)框架,旨在同时增强学习目标的可靠性和样本分布的合理性,以改善稀疏模型中的值学习。具体来说,MAST结合了具有混合TD-($λ$)模式的Soft Mellowmax算子,以建立可靠的学习目标。此外,它采用双重回放缓冲区机制来增强训练样本的分布。在此基础上,MAST利用基于梯度的拓扑演化,仅使用稀疏网络来训练多个MARL智能体。我们在多个基准测试中对各种基于值的MARL算法进行的全面实验研究首次证明,训练和推理的浮点运算(FLOPs)的冗余度显著降低高达20倍,而性能下降不到3%。

🔬 方法详解

问题定义:论文旨在解决深度多智能体强化学习(MARL)中计算开销过大的问题。现有的MARL方法依赖于参数量巨大的神经网络,导致训练和推理的计算成本很高。直接将动态稀疏训练(DST)应用于MARL时,会破坏值学习的稳定性,导致智能体性能下降。

核心思路:论文的核心思路是通过改进学习目标和样本分布,使稀疏网络能够有效地进行值学习。具体来说,通过引入Soft Mellowmax算子和混合TD-($λ$)模式来提高学习目标的可靠性,并使用双重回放缓冲区机制来改善训练样本的分布。这样,即使在稀疏网络中,也能保证值函数的准确学习。

技术框架:MAST框架主要包含以下几个模块:1) Soft Mellowmax算子:用于平滑最大化操作,提高学习目标的稳定性。2) 混合TD-($λ$)模式:结合了TD和蒙特卡洛方法的优点,减少了方差。3) 双重回放缓冲区:分别存储不同类型的样本,以改善样本分布。4) 基于梯度的拓扑演化:动态调整网络的稀疏结构,保留重要的连接。整个框架通过这些模块的协同工作,实现了高效的稀疏MARL训练。

关键创新:MAST框架的关键创新在于其针对稀疏MARL的特殊设计。与直接应用DST不同,MAST关注于解决稀疏网络中值学习的固有问题,通过改进学习目标和样本分布来提高训练的稳定性。此外,双重回放缓冲区和基于梯度的拓扑演化也为稀疏MARL提供了新的思路。

关键设计:Soft Mellowmax算子中的温度参数控制了平滑程度,混合TD-($λ$)模式中的λ参数平衡了偏差和方差。双重回放缓冲区的设计需要考虑不同类型样本的比例。基于梯度的拓扑演化算法需要仔细选择连接的保留和删除策略。这些参数和策略的选择都会影响最终的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MAST框架在多个基准测试中显著降低了计算冗余,最高可达20倍的FLOPs减少,同时性能下降小于3%。这表明MAST能够有效地压缩MARL模型,并提高训练和推理的效率。该研究首次在MARL中实现了如此显著的稀疏化效果,为未来的研究提供了新的方向。

🎯 应用场景

该研究成果可应用于需要大量智能体协作的复杂场景,例如机器人集群控制、交通流量优化、资源分配等。通过降低计算成本和模型大小,MAST框架使得在资源受限的设备上部署复杂的MARL算法成为可能,从而推动了MARL在实际应用中的普及。

📄 摘要(原文)

Deep Multi-agent Reinforcement Learning (MARL) relies on neural networks with numerous parameters in multi-agent scenarios, often incurring substantial computational overhead. Consequently, there is an urgent need to expedite training and enable model compression in MARL. This paper proposes the utilization of dynamic sparse training (DST), a technique proven effective in deep supervised learning tasks, to alleviate the computational burdens in MARL training. However, a direct adoption of DST fails to yield satisfactory MARL agents, leading to breakdowns in value learning within deep sparse value-based MARL models. Motivated by this challenge, we introduce an innovative Multi-Agent Sparse Training (MAST) framework aimed at simultaneously enhancing the reliability of learning targets and the rationality of sample distribution to improve value learning in sparse models. Specifically, MAST incorporates the Soft Mellowmax Operator with a hybrid TD-($λ$) schema to establish dependable learning targets. Additionally, it employs a dual replay buffer mechanism to enhance the distribution of training samples. Building upon these aspects, MAST utilizes gradient-based topology evolution to exclusively train multiple MARL agents using sparse networks. Our comprehensive experimental investigation across various value-based MARL algorithms on multiple benchmarks demonstrates, for the first time, significant reductions in redundancy of up to $20\times$ in Floating Point Operations (FLOPs) for both training and inference, with less than $3\%$ performance degradation.