Policy Optimization and Multi-agent Reinforcement Learning for Mean-variance Team Stochastic Games

📄 arXiv: 2503.22779v3 📥 PDF

作者: Junkai Hu, Li Xia

分类: cs.MA, cs.GT, cs.LG, math.OC

发布日期: 2025-03-28 (更新: 2025-11-26)


💡 一句话要点

针对均值-方差团队随机博弈,提出基于策略优化的多智能体强化学习算法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 均值-方差优化 团队随机博弈 策略优化 信任域方法 能源管理 微电网

📋 核心要点

  1. 传统方法难以处理均值-方差目标下的团队随机博弈,因为方差的非可加性和环境的非平稳性使得动态规划失效。
  2. 论文提出基于敏感度分析的策略优化方法,推导性能差异和导数公式,并设计顺序更新的策略迭代算法。
  3. 实验表明,所提出的算法在微电网能源管理等场景中有效,验证了其在实际应用中的潜力。

📝 摘要(中文)

本文研究了一种长期均值-方差团队随机博弈(MV-TSG),其中每个智能体共享一个共同的系统均值-方差目标,并独立采取行动以最大化该目标。MV-TSG面临两个主要挑战:一是方差度量在动态环境中既不具有可加性也不具有马尔可夫性;二是所有智能体的同步策略更新会导致每个个体智能体面临非平稳环境。这两个挑战使得动态规划不适用。本文从基于敏感度的优化角度研究MV-TSG。推导了联合策略的性能差异和性能导数公式,为MV-TSG提供了优化信息。证明了该问题存在确定性纳什策略。随后,提出了一种具有顺序更新方案的均值-方差多智能体策略迭代(MV-MAPI)算法,其中个体智能体策略按照给定的顺序逐个更新。证明了MV-MAPI算法收敛到目标函数的一阶平稳点。通过分析平稳点的局部几何性质,推导了平稳点成为(局部)纳什均衡以及严格局部最优解的具体条件。为了解决具有未知环境参数的大规模MV-TSG,我们将信任域方法的思想扩展到MV-MAPI,并开发了一种名为均值-方差多智能体信任域策略优化(MV-MATRPO)的多智能体强化学习算法。推导了联合策略每次更新的性能下界。最后,在多个微电网系统中的能源管理上进行了数值实验。

🔬 方法详解

问题定义:论文旨在解决长期均值-方差团队随机博弈(MV-TSG)问题。在该问题中,多个智能体共享一个共同的均值-方差目标,并独立行动以最大化该目标。现有方法,如动态规划,由于方差度量的非可加性和非马尔可夫性,以及多智能体同步更新导致的环境非平稳性,而无法直接应用。这使得寻找最优策略变得困难。

核心思路:论文的核心思路是利用基于敏感度的优化方法来解决MV-TSG问题。通过推导联合策略的性能差异和性能导数公式,为策略优化提供必要的信息。此外,采用顺序更新方案,即一次只更新一个智能体的策略,从而缓解环境非平稳性问题。

技术框架:论文提出的方法主要包含两个算法:MV-MAPI(Mean-Variance Multi-Agent Policy Iteration)和MV-MATRPO(Mean-Variance Multi-Agent Trust Region Policy Optimization)。MV-MAPI是一种策略迭代算法,采用顺序更新方案,并证明了其收敛性。MV-MATRPO则是在MV-MAPI的基础上,引入了信任域方法,用于解决环境参数未知的大规模MV-TSG问题。

关键创新:论文的关键创新在于:1) 推导了MV-TSG的性能差异和性能导数公式,为策略优化提供了理论基础;2) 提出了顺序更新的MV-MAPI算法,有效缓解了环境非平稳性问题;3) 将信任域方法扩展到多智能体强化学习,提出了MV-MATRPO算法,使其能够处理环境参数未知的大规模问题。

关键设计:MV-MAPI算法采用顺序更新方案,即按照预先设定的顺序,依次更新每个智能体的策略。MV-MATRPO算法则是在MV-MAPI的基础上,引入了信任域约束,以保证每次策略更新的性能下界。具体的信任域半径的选择和更新策略,以及性能下界的推导,是该算法的关键设计细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在多个微电网系统的能源管理上进行了数值实验,验证了所提出算法的有效性。实验结果表明,MV-MATRPO算法能够有效地学习到最优策略,并显著优于其他基线算法。具体的性能提升数据在论文中给出。

🎯 应用场景

该研究成果可应用于多个微电网系统的能源管理,通过优化各个微电网的运行策略,实现整个系统的能源效率提升和成本降低。此外,该方法还可以推广到其他多智能体协作场景,如交通控制、资源分配等,具有广泛的应用前景。

📄 摘要(原文)

We study a long-run mean-variance team stochastic game (MV-TSG), where each agent shares a common mean-variance objective for the system and takes actions independently to maximize it. MV-TSG has two main challenges. First, the variance metric is neither additive nor Markovian in a dynamic setting. Second, simultaneous policy updates of all agents lead to a non-stationary environment for each individual agent. Both challenges make dynamic programming inapplicable. In this paper, we study MV-TSGs from the perspective of sensitivity-based optimization. The performance difference and performance derivative formulas for joint policies are derived, which provide optimization information for MV-TSGs. We prove the existence of a deterministic Nash policy for this problem. Subsequently, we propose a Mean-Variance Multi-Agent Policy Iteration (MV-MAPI) algorithm with a sequential update scheme, where individual agent policies are updated one by one in a given order. We prove that the MV-MAPI algorithm converges to a first-order stationary point of the objective function. By analyzing the local geometry of stationary points, we derive specific conditions for stationary points to be (local) Nash equilibria, and further, strict local optima. To solve large-scale MV-TSGs in scenarios with unknown environmental parameters, we extend the idea of trust region methods to MV-MAPI and develop a multi-agent reinforcement learning algorithm named Mean-Variance Multi-Agent Trust Region Policy Optimization (MV-MATRPO). We derive a performance lower bound for each update of joint policies. Finally, numerical experiments on energy management in multiple microgrid systems are conducted.