Low-Rank Agent-Specific Adaptation (LoRASA) for Multi-Agent Policy Learning

📄 arXiv: 2502.05573v1 📥 PDF

作者: Beining Zhang, Aditya Kapoor, Mingfei Sun

分类: cs.MA, cs.AI, cs.LG, cs.RO

发布日期: 2025-02-08

备注: 31 pages, 20 figures, 13 tables


💡 一句话要点

提出LoRASA,通过低秩适配实现多智能体策略学习中的个体 специализация

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 参数共享 低秩适配 智能体 специализация 异构环境

📋 核心要点

  1. 参数共享在多智能体强化学习中常用,但会限制异构环境中智能体的 специализация,降低整体性能。
  2. LoRASA将每个智能体策略视为从共享骨干微调的特定任务,通过低秩适配矩阵实现参数空间稀疏性。
  3. 实验表明,LoRASA在SMAC和MAMuJoCo等基准测试中,性能与现有方法相当或更好,同时降低了计算开销。

📝 摘要(中文)

多智能体强化学习(MARL)通常依赖于参数共享(PS)以实现高效扩展。然而,纯粹共享的策略会抑制每个智能体的独特 специализация,从而降低异构环境中的整体性能。我们提出了低秩智能体特定适配(LoRASA),这是一种新颖的方法,它将每个智能体的策略视为从共享骨干网络微调的专门“任务”。LoRASA从参数高效迁移方法中获得灵感,将小的低秩适配矩阵附加到共享策略的每一层,自然地诱导参数空间稀疏性,从而促进 специализация 和可扩展性。我们在具有挑战性的基准测试(包括星际争霸多智能体挑战赛(SMAC)和多智能体MuJoCo(MAMuJoCo))上评估了LoRASA,并在广泛使用的算法(如MAPPO和A2PO)之上实现了它。在各种任务中,LoRASA匹配或优于现有的基线,同时降低了内存和计算开销。对适配器秩、位置和时序的消融研究验证了该方法的灵活性和效率。我们的结果表明,LoRASA有潜力为MARL策略参数化建立新的规范:将用于协调的共享基础与用于个体 специализация 的低秩智能体特定改进相结合。

🔬 方法详解

问题定义:多智能体强化学习中,参数共享虽然能提升训练效率,但会限制每个智能体学习到针对自身特点的最优策略,尤其是在异构环境中。现有方法难以在参数共享和个体 специализация 之间取得平衡,导致整体性能受限。

核心思路:LoRASA的核心思想是将每个智能体的策略看作是对一个共享策略的微调。通过为每个智能体添加小的、低秩的适配矩阵,使得每个智能体可以在共享知识的基础上学习到特定于自身的 специализация,从而提升整体性能。这种方法既能保证参数共享带来的效率,又能赋予每个智能体一定的灵活性。

技术框架:LoRASA的整体框架是在一个共享的多智能体策略网络的基础上,为每个智能体的策略网络的每一层添加一个低秩适配器。训练过程中,共享策略网络的参数保持不变或以较低的学习率更新,而低秩适配器的参数则针对每个智能体进行优化。推理时,将共享策略网络的参数和适配器的参数结合起来,得到每个智能体的特定策略。

关键创新:LoRASA的关键创新在于使用低秩适配器来实现智能体特定 специализация。与直接训练独立的策略网络相比,低秩适配器引入的参数量更少,计算开销更低,同时也能有效地提升性能。这种方法在参数效率和性能之间取得了良好的平衡。

关键设计:LoRASA的关键设计包括适配器的秩的选择、适配器的放置位置以及适配器的训练方式。适配器的秩决定了适配器的参数量和表达能力,需要根据具体任务进行调整。适配器可以放置在策略网络的每一层,也可以只放置在部分层。适配器的训练方式可以是固定共享策略网络的参数,也可以以较低的学习率更新共享策略网络的参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LoRASA在SMAC和MAMuJoCo等基准测试中取得了显著的成果。例如,在某些SMAC场景中,LoRASA的性能超越了MAPPO等基线算法,同时显著降低了内存和计算开销。消融实验表明,适配器的秩、位置和时序对性能有重要影响,验证了LoRASA的灵活性和效率。

🎯 应用场景

LoRASA适用于各种需要多智能体协作的场景,例如机器人协同控制、自动驾驶、游戏AI和资源分配等。通过允许每个智能体学习到针对自身特点的最优策略,LoRASA可以提升多智能体系统的整体性能和鲁棒性,使其能够更好地适应复杂多变的环境。

📄 摘要(原文)

Multi-agent reinforcement learning (MARL) often relies on \emph{parameter sharing (PS)} to scale efficiently. However, purely shared policies can stifle each agent's unique specialization, reducing overall performance in heterogeneous environments. We propose \textbf{Low-Rank Agent-Specific Adaptation (LoRASA)}, a novel approach that treats each agent's policy as a specialized ``task'' fine-tuned from a shared backbone. Drawing inspiration from parameter-efficient transfer methods, LoRASA appends small, low-rank adaptation matrices to each layer of the shared policy, naturally inducing \emph{parameter-space sparsity} that promotes both specialization and scalability. We evaluate LoRASA on challenging benchmarks including the StarCraft Multi-Agent Challenge (SMAC) and Multi-Agent MuJoCo (MAMuJoCo), implementing it atop widely used algorithms such as MAPPO and A2PO. Across diverse tasks, LoRASA matches or outperforms existing baselines \emph{while reducing memory and computational overhead}. Ablation studies on adapter rank, placement, and timing validate the method's flexibility and efficiency. Our results suggest LoRASA's potential to establish a new norm for MARL policy parameterization: combining a shared foundation for coordination with low-rank agent-specific refinements for individual specialization.