Causal Mean Field Multi-Agent Reinforcement Learning

作者: Hao Ma, Zhiqiang Pu, Yi Pan, Boyin Liu, Junlong Gao, Zhenyu Guo

分类: cs.AI, cs.MA

发布日期: 2025-02-20

期刊: Proc. 2023 International Joint Conference on Neural Networks (IJCNN), 2023, pp. 1-8

DOI: 10.1109/IJCNN54540.2023.10191654

💡 一句话要点

提出因果平均场Q学习（CMFQ）算法，提升多智能体强化学习在非平稳环境下的可扩展性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 平均场强化学习 因果推理 结构因果模型 可扩展性 非平稳环境 Q学习

📋 核心要点

多智能体强化学习在智能体数量增加时面临可扩展性挑战，现有方法难以在非平稳环境中有效识别关键交互。
CMFQ算法利用结构因果模型（SCM）量化智能体交互的因果效应，并设计因果感知的紧凑表示，提升算法鲁棒性。
实验结果表明，CMFQ在混合合作-竞争和合作博弈中，训练和测试阶段均展现出优异的可扩展性性能。

📝 摘要（中文）

多智能体强化学习中的可扩展性仍然是一个挑战，并且是当前活跃的研究领域。平均场强化学习（MFRL）框架通过应用平均场理论将多智能体问题转化为双智能体问题，从而缓解了可扩展性问题。然而，该框架缺乏在非平稳环境下识别关键交互的能力。因果关系包含交互背后相对不变的机制，即使环境是非平稳的。因此，我们提出了一种名为因果平均场Q学习（CMFQ）的算法来解决可扩展性问题。CMFQ通过继承MFRL的动作-状态空间的压缩表示，在智能体数量变化时表现出更强的鲁棒性。首先，我们将MFRL决策过程背后的因果关系建模为一个结构因果模型（SCM）。然后，通过干预SCM来量化每个交互的关键程度。此外，我们设计了因果感知的紧凑表示，用于表示智能体的行为信息，作为所有行为信息的加权和，权重取决于它们的因果效应。我们在混合合作-竞争博弈和合作博弈中测试了CMFQ。结果表明，我们的方法在包含大量智能体的环境中进行训练以及在包含更多智能体的环境中进行测试时，都具有出色的可扩展性。

🔬 方法详解

问题定义：论文旨在解决多智能体强化学习（MARL）中，当智能体数量增加时，传统方法面临的可扩展性问题。现有方法，特别是平均场强化学习（MFRL），虽然能将多智能体问题简化为双智能体问题，但在非平稳环境下，无法有效识别和利用关键的智能体间交互，导致性能下降。

核心思路：论文的核心思路是将因果推理引入到平均场强化学习中。通过构建结构因果模型（SCM），显式地建模智能体之间的因果关系，并量化每个智能体对其他智能体的影响程度。然后，利用这些因果关系信息，设计因果感知的智能体行为表示，从而使算法能够更有效地学习和利用关键交互，提高在非平稳环境下的鲁棒性和可扩展性。

技术框架：CMFQ算法的技术框架主要包含以下几个阶段：1) 构建结构因果模型（SCM）：将MFRL的决策过程建模为SCM，其中节点表示智能体的状态、动作等变量，边表示变量之间的因果关系。2) 因果效应量化：通过干预SCM，计算每个智能体对其他智能体的影响程度，即因果效应。3) 因果感知表示：基于量化的因果效应，设计智能体的行为表示，该表示是所有智能体行为信息的加权和，权重由因果效应决定。4) Q-learning更新：使用因果感知的智能体行为表示，进行Q-learning的更新，学习最优策略。

关键创新：CMFQ算法的关键创新在于将因果推理引入到平均场强化学习中，通过显式地建模和量化智能体之间的因果关系，解决了传统MFRL在非平稳环境下无法有效识别关键交互的问题。与现有方法的本质区别在于，CMFQ不仅仅关注智能体之间的相关性，更关注智能体之间的因果关系，从而能够更有效地学习和利用关键交互，提高算法的鲁棒性和可扩展性。

关键设计：在构建SCM时，需要根据具体的环境和任务，定义智能体之间的因果关系。因果效应的量化可以通过干预SCM来实现，例如使用do-算子。因果感知表示的设计需要考虑如何有效地利用量化的因果效应，例如可以使用加权平均的方式，权重由因果效应决定。Q-learning的更新可以使用标准的Q-learning算法，但需要使用因果感知的智能体行为表示作为输入。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CMFQ算法在混合合作-竞争博弈和合作博弈中均表现出优异的可扩展性。在包含大量智能体的环境中进行训练，并在包含更多智能体的环境中进行测试，CMFQ算法的性能明显优于基线方法，验证了其在非平稳环境下识别关键交互的能力。

🎯 应用场景

CMFQ算法可应用于大规模多智能体系统，如交通流量优化、机器人集群控制、资源分配等领域。通过识别关键智能体间的因果关系，能够提升系统在复杂、动态环境下的稳定性和效率，具有重要的实际应用价值和潜力。

📄 摘要（原文）

Scalability remains a challenge in multi-agent reinforcement learning and is currently under active research. A framework named mean-field reinforcement learning (MFRL) could alleviate the scalability problem by employing the Mean Field Theory to turn a many-agent problem into a two-agent problem. However, this framework lacks the ability to identify essential interactions under nonstationary environments. Causality contains relatively invariant mechanisms behind interactions, though environments are nonstationary. Therefore, we propose an algorithm called causal mean-field Q-learning (CMFQ) to address the scalability problem. CMFQ is ever more robust toward the change of the number of agents though inheriting the compressed representation of MFRL's action-state space. Firstly, we model the causality behind the decision-making process of MFRL into a structural causal model (SCM). Then the essential degree of each interaction is quantified via intervening on the SCM. Furthermore, we design the causality-aware compact representation for behavioral information of agents as the weighted sum of all behavioral information according to their causal effects. We test CMFQ in a mixed cooperative-competitive game and a cooperative game. The result shows that our method has excellent scalability performance in both training in environments containing a large number of agents and testing in environments containing much more agents.

Causal Mean Field Multi-Agent Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理