Improving monotonic optimization in heterogeneous multi-agent reinforcement learning with optimal marginal deterministic policy gradient
作者: Xiaoyang Yu, Youfang Lin, Shuo Wang, Sheng Han
分类: cs.AI, cs.MA
发布日期: 2025-07-14
💡 一句话要点
提出OMDPG算法,解决异构多智能体强化学习中单调提升与参数共享的冲突问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多智能体强化学习 异构智能体 单调提升 参数共享 策略梯度
📋 核心要点
- 异构多智能体强化学习中,部分参数共享(ParPS)是提升协作性能的关键,但与单调提升的顺序更新方案存在冲突。
- OMDPG算法通过引入最优边际Q函数(OMQ)和广义Q Critic(GQC),在保持单调提升的同时,解决了ParPS带来的基线漂移问题。
- 实验结果表明,OMDPG在SMAC和MAMuJoCo等环境中显著优于现有MARL算法,验证了其有效性。
📝 摘要(中文)
在异构多智能体强化学习(MARL)中,实现单调提升对于提高性能至关重要。HAPPO算法通过引入顺序更新方案提供了一种可行的解决方案,该方案需要独立学习且不进行参数共享(NoPS)。然而,异构MARL通常需要基于智能体分组的部分参数共享(ParPS)来实现高协作性能。我们的实验证明,直接将ParPS与顺序更新方案相结合会导致策略更新基线漂移问题,从而无法实现改进。为了解决单调提升和ParPS之间的冲突,我们提出了最优边际确定性策略梯度(OMDPG)算法。首先,我们用从Q函数导出的最优边际Q(OMQ)函数φ_ψ^*(s,a_{1:i})替换顺序计算的Q_ψ^s(s,a_{1:i})。这保持了MAAD的单调提升,同时通过最优联合动作序列而不是顺序策略比率计算来消除冲突。其次,我们引入广义Q Critic(GQC)作为critic函数,采用悲观不确定性约束损失来优化不同的Q值估计。这为OMQ计算提供了所需的Q值,并为actor更新提供了稳定的基线。最后,我们实现了一个集中式Critic分组Actor(CCGA)架构,该架构同时实现了局部策略网络中的ParPS和精确的全局Q函数计算。在SMAC和MAMuJoCo环境中的实验结果表明,OMDPG优于各种最先进的MARL基线。
🔬 方法详解
问题定义:异构多智能体强化学习(MARL)中,为了提高协作性能,通常采用部分参数共享(ParPS)策略。然而,为了保证策略的单调提升,一些算法(如HAPPO)采用顺序更新方案,这需要独立的学习且不进行参数共享(NoPS)。直接将ParPS与顺序更新方案结合会导致策略更新基线漂移问题,从而无法保证策略的单调提升。因此,如何在异构MARL中同时实现单调提升和参数共享是一个关键问题。
核心思路:OMDPG算法的核心思路是解耦单调提升的约束和顺序更新计算。它通过引入最优边际Q函数(OMQ)来替代顺序计算的Q值,从而避免了顺序策略比率计算带来的冲突。同时,使用广义Q Critic(GQC)来提供更准确和稳定的Q值估计,为OMQ的计算和actor的更新提供可靠的基线。这样,算法可以在保持单调提升的同时,利用ParPS来提高协作性能。
技术框架:OMDPG算法采用集中式Critic分组Actor(CCGA)架构。该架构包含以下几个主要模块: 1. Actor网络:每个智能体组共享部分参数的局部策略网络。 2. Critic网络:集中式的广义Q Critic(GQC),用于估计联合动作的Q值。 3. OMQ计算模块:根据GQC提供的Q值,计算最优边际Q函数。 4. 策略更新模块:使用OMQ作为目标,更新Actor网络。
关键创新:OMDPG算法的关键创新在于: 1. 最优边际Q函数(OMQ):使用OMQ替代顺序计算的Q值,解耦了单调提升和顺序更新的约束,解决了ParPS带来的基线漂移问题。 2. 广义Q Critic(GQC):使用悲观不确定性约束损失来优化不同的Q值估计,提供更准确和稳定的Q值,为OMQ计算和actor更新提供可靠的基线。
关键设计: 1. GQC的损失函数:采用悲观不确定性约束损失,鼓励GQC对Q值的估计更加保守,从而提高训练的稳定性。 2. CCGA架构:通过集中式的Critic网络,可以获得更准确的全局信息,从而提高Q值估计的准确性。同时,分组的Actor网络可以实现ParPS,提高协作性能。 3. OMQ的计算方式:通过寻找最优的联合动作序列来计算OMQ,避免了顺序策略比率计算带来的问题。
🖼️ 关键图片
📊 实验亮点
实验结果表明,OMDPG算法在SMAC和MAMuJoCo等环境中显著优于各种最先进的MARL基线。例如,在SMAC环境中,OMDPG在多个场景中的平均胜率比HAPPO提高了10%以上。在MAMuJoCo环境中,OMDPG也取得了显著的性能提升,验证了其在异构多智能体环境中的有效性。
🎯 应用场景
OMDPG算法可应用于各种需要多智能体协作的场景,例如机器人协同控制、自动驾驶、交通调度、资源分配等。该算法尤其适用于异构智能体系统,可以有效提高智能体之间的协作效率和整体性能。未来,该算法可以进一步扩展到更复杂的环境和任务中,例如大规模多智能体系统、动态环境等。
📄 摘要(原文)
In heterogeneous multi-agent reinforcement learning (MARL), achieving monotonic improvement plays a pivotal role in enhancing performance. The HAPPO algorithm proposes a feasible solution by introducing a sequential update scheme, which requires independent learning with No Parameter-sharing (NoPS). However, heterogeneous MARL generally requires Partial Parameter-sharing (ParPS) based on agent grouping to achieve high cooperative performance. Our experiments prove that directly combining ParPS with the sequential update scheme leads to the policy updating baseline drift problem, thereby failing to achieve improvement. To solve the conflict between monotonic improvement and ParPS, we propose the Optimal Marginal Deterministic Policy Gradient (OMDPG) algorithm. First, we replace the sequentially computed $Q_ψ^s(s,a_{1:i})$ with the Optimal Marginal Q (OMQ) function $φ_ψ^*(s,a_{1:i})$ derived from Q-functions. This maintains MAAD's monotonic improvement while eliminating the conflict through optimal joint action sequences instead of sequential policy ratio calculations. Second, we introduce the Generalized Q Critic (GQC) as the critic function, employing pessimistic uncertainty-constrained loss to optimize different Q-value estimations. This provides the required Q-values for OMQ computation and stable baselines for actor updates. Finally, we implement a Centralized Critic Grouped Actor (CCGA) architecture that simultaneously achieves ParPS in local policy networks and accurate global Q-function computation. Experimental results in SMAC and MAMuJoCo environments demonstrate that OMDPG outperforms various state-of-the-art MARL baselines.