XP-MARL: Auxiliary Prioritization in Multi-Agent Reinforcement Learning to Address Non-Stationarity

📄 arXiv: 2409.11852v1 📥 PDF

作者: Jianye Xu, Omar Sobhy, Bassam Alrifaee

分类: cs.RO, cs.GT, cs.MA

发布日期: 2024-09-18

备注: 7 pages, 5 figures. This work has been submitted to the IEEE for possible publication


💡 一句话要点

XP-MARL:通过辅助优先级排序解决多智能体强化学习中的非平稳性问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 非平稳性 优先级排序 动作传播 辅助学习

📋 核心要点

  1. 多智能体强化学习中,智能体策略同步更新导致环境非平稳,影响学习效果。
  2. XP-MARL通过引入智能体优先级排序,让高优先级智能体先行动并传递信息,稳定环境。
  3. XP-MARL学习优先级分配策略,并在车辆运动规划场景中显著提升安全性。

📝 摘要(中文)

多智能体强化学习(MARL)中的非平稳性是一个根本挑战,它源于智能体同时学习和改变策略。这从每个智能体的角度来看,创建了一个非平稳环境,通常导致次优甚至不收敛的学习结果。我们提出了一个名为XP-MARL的开源框架,该框架通过辅助优先级排序来增强MARL,以应对合作环境中的这一挑战。XP-MARL 1) 基于我们的假设:优先考虑智能体,让优先级较高的智能体首先确定其行动,将稳定学习过程,从而减轻非平稳性;2) 通过我们提出的称为行动传播的机制实现,其中较高优先级的智能体首先行动并传递其行动,为其他智能体提供更平稳的环境。此外,XP-MARL不是使用预定义的或启发式的优先级分配,而是使用辅助MARL问题学习优先级分配策略,从而形成联合学习方案。在涉及互联和自动驾驶车辆(CAV)的运动规划场景中的实验表明,XP-MARL将基线模型的安全性提高了84.4%,并且优于最先进的方法,后者仅将基线提高了12.8%。

🔬 方法详解

问题定义:多智能体强化学习(MARL)中,由于每个智能体都在不断学习和调整策略,从其他智能体的角度来看,环境是不断变化的,即非平稳性问题。这种非平稳性使得智能体难以学习到稳定的策略,导致次优解甚至学习失败。现有的方法通常采用集中式训练或经验回放等方式来缓解非平稳性,但效果有限,且可能引入额外的复杂性。

核心思路:XP-MARL的核心思路是通过引入智能体的优先级排序,使得优先级较高的智能体首先执行动作,并将动作信息传递给其他智能体。这样,优先级较低的智能体在做出决策时,可以获得更多关于环境的信息,从而减少环境的不确定性,降低非平稳性。这种方法类似于人类社会中的决策过程,即领导者先做出决策,然后其他人根据领导者的决策做出相应的行动。

技术框架:XP-MARL的整体框架包含两个主要的MARL问题:主MARL问题和辅助MARL问题。主MARL问题是原始的多智能体任务,例如车辆运动规划。辅助MARL问题用于学习智能体的优先级分配策略。智能体的动作传播机制是关键,高优先级智能体首先执行动作,并将动作信息传递给低优先级智能体。低优先级智能体在接收到高优先级智能体的动作信息后,再执行自己的动作。

关键创新:XP-MARL最重要的创新点在于引入了辅助MARL问题来学习智能体的优先级分配策略。与传统的预定义或启发式优先级分配方法不同,XP-MARL可以通过学习来动态地调整智能体的优先级,从而更好地适应不同的环境和任务。此外,动作传播机制也是一个重要的创新点,它使得智能体之间可以进行信息交流,从而减少环境的不确定性。

关键设计:XP-MARL使用两个独立的MARL算法分别解决主问题和辅助问题。具体的MARL算法选择是灵活的,可以使用任何现有的MARL算法,例如MADDPG或PPO。辅助问题的奖励函数设计至关重要,需要能够反映智能体优先级分配的优劣。动作传播机制的具体实现方式也需要仔细设计,例如可以使用神经网络来学习如何将高优先级智能体的动作信息传递给低优先级智能体。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,XP-MARL在车辆运动规划场景中显著提高了安全性。与基线模型相比,XP-MARL将安全性提高了84.4%,而最先进的方法仅提高了12.8%。这表明XP-MARL能够有效地解决多智能体强化学习中的非平稳性问题,并取得显著的性能提升。实验结果还表明,XP-MARL具有较强的鲁棒性,能够适应不同的环境和任务。

🎯 应用场景

XP-MARL具有广泛的应用前景,尤其适用于需要多智能体协作的复杂系统。例如,在交通控制领域,XP-MARL可以用于优化车辆的行驶路线,提高交通效率和安全性。在机器人领域,XP-MARL可以用于协调多个机器人的行动,完成复杂的任务。此外,XP-MARL还可以应用于智能电网、金融交易等领域,具有重要的实际价值和未来影响。

📄 摘要(原文)

Non-stationarity poses a fundamental challenge in Multi-Agent Reinforcement Learning (MARL), arising from agents simultaneously learning and altering their policies. This creates a non-stationary environment from the perspective of each individual agent, often leading to suboptimal or even unconverged learning outcomes. We propose an open-source framework named XP-MARL, which augments MARL with auxiliary prioritization to address this challenge in cooperative settings. XP-MARL is 1) founded upon our hypothesis that prioritizing agents and letting higher-priority agents establish their actions first would stabilize the learning process and thus mitigate non-stationarity and 2) enabled by our proposed mechanism called action propagation, where higher-priority agents act first and communicate their actions, providing a more stationary environment for others. Moreover, instead of using a predefined or heuristic priority assignment, XP-MARL learns priority-assignment policies with an auxiliary MARL problem, leading to a joint learning scheme. Experiments in a motion-planning scenario involving Connected and Automated Vehicles (CAVs) demonstrate that XP-MARL improves the safety of a baseline model by 84.4% and outperforms a state-of-the-art approach, which improves the baseline by only 12.8%. Code: github.com/cas-lab-munich/sigmarl