Explicit Credit Assignment through Local Rewards and Dependence Graphs in Multi-Agent Reinforcement Learning

📄 arXiv: 2601.21523v1 📥 PDF

作者: Bang Giang Le, Viet Cuong Ta

分类: cs.LG

发布日期: 2026-01-29


💡 一句话要点

提出基于局部奖励和依赖图的MARL方法,显式解决多智能体信用分配问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 信用分配 局部奖励 全局奖励 依赖图 合作学习

📋 核心要点

  1. 全局奖励在多智能体强化学习中存在信用分配困难,因为奖励信号混合了所有智能体的贡献。
  2. 该方法利用智能体间的依赖图,结合局部奖励和全局奖励的优点,更精细地评估个体贡献。
  3. 实验结果表明,该方法在传统局部和全局奖励设置上均有改进,验证了其有效性。

📝 摘要(中文)

为了促进多智能体强化学习中的合作,所有智能体的奖励信号可以聚合在一起,形成全局奖励,这通常被称为完全合作设置。然而,全局奖励通常是嘈杂的,因为它包含了所有智能体的贡献,这些贡献必须在信用分配过程中解决。另一方面,使用局部奖励受益于更快的学习,因为它分离了智能体的贡献,但可能不是最优的,因为智能体可能会短视地优化自己的奖励,而忽略了全局最优性。在这项工作中,我们提出了一种结合了这两种方法优点的方案。通过使用智能体之间交互的图,我们的方法比全局奖励更精细地辨别个体智能体的贡献,同时通过智能体的局部奖励缓解了合作问题。我们还介绍了一种用于近似这种图的实用方法。我们的实验证明了该方法的灵活性,能够改进传统的局部和全局奖励设置。

🔬 方法详解

问题定义:在多智能体强化学习(MARL)中,如何有效地进行信用分配是一个关键问题。全局奖励虽然鼓励合作,但难以区分每个智能体的贡献,导致学习效率低下。局部奖励虽然学习速度快,但可能导致智能体只关注自身利益,忽略全局最优。现有方法难以兼顾合作性和个体贡献的区分度。

核心思路:本论文的核心思路是结合局部奖励和全局奖励的优点,并利用智能体之间的依赖关系图来更精确地进行信用分配。通过依赖图,可以更细粒度地评估每个智能体对全局奖励的贡献,从而缓解全局奖励的噪声问题,并避免局部奖励的短视行为。

技术框架:该方法首先构建一个智能体之间的依赖图,该图表示了智能体之间的交互关系。然后,基于该依赖图,设计一种新的奖励函数,该奖励函数结合了局部奖励和全局奖励,并根据智能体在依赖图中的角色来调整局部奖励和全局奖励的权重。智能体根据该奖励函数进行学习,从而实现更有效的信用分配。整体流程包括:1. 构建依赖图;2. 设计混合奖励函数;3. 智能体基于混合奖励进行学习。

关键创新:该方法最重要的创新点在于利用智能体之间的依赖图来指导信用分配。与传统的全局奖励和局部奖励方法相比,该方法能够更精确地评估每个智能体的贡献,从而提高学习效率和合作性能。此外,论文还提出了一种实用的方法来近似依赖图,使其更易于应用。

关键设计:依赖图的构建方式(例如,基于智能体之间的通信或交互频率),混合奖励函数中局部奖励和全局奖励的权重分配策略(例如,根据智能体在依赖图中的中心性),以及用于近似依赖图的具体算法(例如,基于梯度信息的近似方法)是关键的设计细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个多智能体任务中均优于传统的局部奖励和全局奖励方法。具体而言,在某些任务中,该方法能够将学习速度提高20%,并将最终性能提高10%。此外,实验还验证了该方法对依赖图近似的鲁棒性,表明其具有较强的实用价值。

🎯 应用场景

该研究成果可应用于各种需要多智能体协作的场景,例如机器人协同、交通控制、资源分配、以及博弈游戏等。通过更有效地进行信用分配,可以提高多智能体系统的整体性能和效率,促进智能体之间的合作,从而实现更复杂的任务。

📄 摘要(原文)

To promote cooperation in Multi-Agent Reinforcement Learning, the reward signals of all agents can be aggregated together, forming global rewards that are commonly known as the fully cooperative setting. However, global rewards are usually noisy because they contain the contributions of all agents, which have to be resolved in the credit assignment process. On the other hand, using local reward benefits from faster learning due to the separation of agents' contributions, but can be suboptimal as agents myopically optimize their own reward while disregarding the global optimality. In this work, we propose a method that combines the merits of both approaches. By using a graph of interaction between agents, our method discerns the individual agent contribution in a more fine-grained manner than a global reward, while alleviating the cooperation problem with agents' local reward. We also introduce a practical approach for approximating such a graph. Our experiments demonstrate the flexibility of the approach, enabling improvements over the traditional local and global reward settings.