Controlling Behavioral Diversity in Multi-Agent Reinforcement Learning

📄 arXiv: 2405.15054v1 📥 PDF

作者: Matteo Bettini, Ryan Kortvelesy, Amanda Prorok

分类: cs.MA, cs.AI, cs.LG, cs.RO

发布日期: 2024-05-23


💡 一句话要点

提出DiCo方法,通过约束策略架构精确控制多智能体强化学习中的行为多样性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 行为多样性 策略控制 Actor-Critic算法 参数共享

📋 核心要点

  1. 现有MARL方法在控制行为多样性方面存在不足,通常依赖于盲目促进,缺乏精确控制和理论保证。
  2. DiCo方法通过将策略分解为共享和个体组件,并直接约束策略架构,实现了对多样性的精确控制。
  3. 实验结果表明,DiCo在合作和竞争环境中均能有效提高性能和样本效率,验证了其有效性。

📝 摘要(中文)

本研究关注多智能体强化学习(MARL)中行为多样性的控制问题。现有方法通常通过内在奖励或额外的损失函数盲目地促进多样性,改变了学习目标,并且缺乏对多样性的原则性度量。为了解决这个问题,我们提出了多样性控制(DiCo)方法,它能够将多样性控制到给定指标的精确值。DiCo将策略表示为参数共享组件和动态缩放的每个智能体组件的总和。通过直接对策略架构施加约束,DiCo保持了学习目标不变,使其适用于任何actor-critic MARL算法。我们从理论上证明了DiCo实现了期望的多样性,并通过合作和竞争任务中的多个实验表明,DiCo可以作为一种新的范例来提高MARL的性能和样本效率。

🔬 方法详解

问题定义:现有MARL方法在促进智能体行为多样性时,通常采用添加内在奖励或修改损失函数的方式,这会改变原始的学习目标。此外,这些方法缺乏对多样性的精确控制,无法将多样性调整到期望的水平。因此,需要一种能够在不改变学习目标的前提下,精确控制多智能体系统多样性的方法。

核心思路:DiCo的核心思路是将每个智能体的策略表示为两部分之和:一个参数共享的组件和一个特定于智能体的组件。通过动态调整特定于智能体组件的缩放因子,可以控制智能体策略之间的差异,从而控制整体的多样性。这种方法直接作用于策略架构,避免了修改原始学习目标。

技术框架:DiCo方法可以应用于任何actor-critic MARL算法。其整体框架包括以下几个步骤:1) 定义一个多样性度量指标;2) 将每个智能体的策略表示为共享组件和个体组件之和;3) 在训练过程中,动态调整个体组件的缩放因子,以满足期望的多样性水平;4) 使用actor-critic算法更新策略参数。

关键创新:DiCo的关键创新在于其策略表示方式和多样性控制机制。通过将策略分解为共享和个体组件,并动态调整个体组件的缩放因子,DiCo能够精确控制多样性,而无需修改原始学习目标。此外,DiCo还提供了理论保证,证明其能够实现期望的多样性水平。

关键设计:DiCo的关键设计包括:1) 多样性度量指标的选择,论文中使用了策略梯度之间的距离作为度量;2) 个体组件缩放因子的计算方法,论文中采用了一种基于梯度下降的优化方法来调整缩放因子,以满足多样性约束;3) actor-critic算法的选择,DiCo可以与任何actor-critic算法结合使用,例如DDPG、TD3等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DiCo在合作和竞争任务中均能有效提高性能和样本效率。例如,在合作导航任务中,DiCo能够使智能体更快地找到目标,并减少碰撞次数。在竞争博弈任务中,DiCo能够使智能体学习到更多样化的策略,从而提高其胜率。与基线方法相比,DiCo在某些任务中能够将性能提高10%-20%。

🎯 应用场景

DiCo方法可应用于各种需要控制多智能体系统行为多样性的场景,例如:机器人编队控制、交通流量优化、资源分配、以及对抗博弈等。通过控制多样性,可以提高系统的鲁棒性、适应性和协作效率,从而在实际应用中获得更好的性能。

📄 摘要(原文)

The study of behavioral diversity in Multi-Agent Reinforcement Learning (MARL) is a nascent yet promising field. In this context, the present work deals with the question of how to control the diversity of a multi-agent system. With no existing approaches to control diversity to a set value, current solutions focus on blindly promoting it via intrinsic rewards or additional loss functions, effectively changing the learning objective and lacking a principled measure for it. To address this, we introduce Diversity Control (DiCo), a method able to control diversity to an exact value of a given metric by representing policies as the sum of a parameter-shared component and dynamically scaled per-agent components. By applying constraints directly to the policy architecture, DiCo leaves the learning objective unchanged, enabling its applicability to any actor-critic MARL algorithm. We theoretically prove that DiCo achieves the desired diversity, and we provide several experiments, both in cooperative and competitive tasks, that show how DiCo can be employed as a novel paradigm to increase performance and sample efficiency in MARL. Multimedia results are available on the paper's website: https://sites.google.com/view/dico-marl.