The challenge of hidden gifts in multi-agent reinforcement learning

📄 arXiv: 2505.20579v5 📥 PDF

作者: Dane Malenfant, Blake A. Richards

分类: cs.LG, cs.AI, cs.MA

发布日期: 2025-05-26 (更新: 2025-09-30)

备注: Added LOLA baselines to appendix, new corollary proof on correction term not conflicting with individual objectives, related works on multi-objective RL and coordination MARL, expanded the contraposition appendix experiment, moved key drop rate experiments to appendix and aligned first success plots with key-drop plots


💡 一句话要点

针对多智能体强化学习中“隐藏礼物”问题,提出自学习感知修正策略梯度方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 隐藏礼物 信用分配 策略梯度 自学习感知

📋 核心要点

  1. 现有MARL算法在处理“隐藏礼物”问题时面临挑战,即智能体受益于其他智能体的行为但无法感知。
  2. 论文提出一种基于自学习感知的策略梯度修正项,旨在降低学习方差,提升智能体协作的可靠性。
  3. 实验表明,该方法能有效提升分散式actor-critic智能体在存在“隐藏礼物”场景下的集体奖励获取能力。

📝 摘要(中文)

本文研究了多智能体强化学习(MARL)中“隐藏礼物”带来的挑战。当智能体受益于其他智能体的行为,但并不知道这些行为时,就会出现“隐藏礼物”。例如,当你的邻居在你不在的时候选择不占用你家门口的停车位,你就可以受益,即使你不知道他们采取了这个行动。由于在他人有益行为被隐藏时分配奖励并非易事,因此这些“隐藏礼物”对MARL提出了有趣的挑战。本文在一个非常简单的MARL任务中研究了隐藏礼物的影响。在这个任务中,网格世界环境中的智能体需要解锁各自的门才能获得各自的奖励。此外,如果所有智能体都解锁了他们的门,该组将获得更大的集体奖励。但是,所有门只有一把钥匙,因此只有在智能体使用钥匙后将其传递给其他智能体时才能获得集体奖励。值得注意的是,没有任何迹象表明其他智能体已经传递了钥匙,因此这种为他人提供的行为是一种“隐藏礼物”。我们表明,几种不同的最先进的MARL算法,包括MARL特定的架构,都无法学会如何在这个简单的任务中获得集体奖励。有趣的是,我们发现,当我们向分散的actor-critic策略梯度智能体提供关于他们自己行动历史的信息时,他们可以成功,但MARL智能体仍然无法通过行动历史解决该任务。最后,我们受到学习感知方法的启发,为策略梯度智能体推导出一个校正项,该校正项降低了学习中的方差,并帮助他们更可靠地收敛到集体成功。这些结果表明,在存在“隐藏礼物”的情况下,多智能体环境中的信用分配可能特别具有挑战性,并表明分散智能体中的自我学习感知可以使这些环境受益。

🔬 方法详解

问题定义:论文旨在解决多智能体强化学习中由于“隐藏礼物”现象导致的信用分配难题。当一个智能体的行为对其他智能体产生积极影响,但这种影响是不可见的,传统的MARL算法难以学习到协作策略,从而无法最大化集体奖励。现有方法的痛点在于无法有效识别和奖励这种隐藏的贡献。

核心思路:论文的核心思路是让智能体具备“自学习感知”能力,即通过考虑自身行为历史来推断其他智能体的潜在行为,并据此调整策略。通过引入一个修正项到策略梯度中,降低学习过程中的方差,从而更稳定地学习到协作策略。这种方法的核心在于将智能体自身的行动历史作为一种上下文信息,用于更好地理解环境和推断其他智能体的行为。

技术框架:整体框架基于分散式actor-critic架构。每个智能体都有自己的actor网络和critic网络。Actor网络负责生成策略,Critic网络负责评估策略的价值。关键在于策略梯度更新时,引入了一个修正项,该修正项基于智能体自身的行动历史,用于调整策略梯度,从而更好地分配信用。整体流程如下: 1. 每个智能体根据自身策略选择动作。 2. 环境执行动作,并返回奖励和下一个状态。 3. 每个智能体使用critic网络评估当前状态的价值。 4. 使用策略梯度算法更新actor网络,其中包含基于行动历史的修正项。 5. 使用TD误差更新critic网络。

关键创新:最重要的技术创新点是引入了基于行动历史的策略梯度修正项。与现有方法相比,该方法不需要额外的通信或全局信息,而是通过智能体自身的经验来推断其他智能体的行为,从而更有效地解决“隐藏礼物”问题。这种方法的本质区别在于它关注智能体自身的学习感知能力,而不是依赖于外部信息。

关键设计:关键设计在于修正项的具体形式。修正项的设计灵感来源于学习感知方法,它基于智能体自身的行动历史,用于调整策略梯度。具体的数学形式未知,但可以推断其目标是降低策略梯度估计的方差,从而使学习过程更加稳定。此外,行动历史的长度和表示方式也是关键的设计参数。论文中提到,提供行动历史信息可以帮助分散式actor-critic智能体成功解决任务,但MARL智能体仍然无法解决,这暗示了行动历史的表示方式和利用方式可能存在差异。

📊 实验亮点

实验结果表明,传统的MARL算法在存在“隐藏礼物”的简单任务中表现不佳,无法学会有效的协作策略。而通过引入基于行动历史的策略梯度修正项,分散式actor-critic智能体能够更可靠地收敛到集体成功。虽然论文中没有给出具体的性能数据,但强调了该方法在解决“隐藏礼物”问题上的有效性。

🎯 应用场景

该研究成果可应用于机器人协作、自动驾驶车辆编队、资源分配等领域。在这些场景中,智能体之间的行为可能存在隐蔽的依赖关系,例如一个机器人为另一个机器人创造了有利条件但没有直接通信。该研究有助于提升智能体在复杂环境下的协作效率和鲁棒性,促进智能体系统在实际场景中的应用。

📄 摘要(原文)

Sometimes we benefit from actions that others have taken even when we are unaware that they took those actions. For example, if your neighbor chooses not to take a parking spot in front of your house when you are not there, you can benefit, even without being aware that they took this action. These hidden gifts'' represent an interesting challenge for multi-agent reinforcement learning (MARL), since assigning credit when the beneficial actions of others are hidden is non-trivial. Here, we study the impact of hidden gifts with a very simple MARL task. In this task, agents in a grid-world environment have individual doors to unlock in order to obtain individual rewards. As well, if all the agents unlock their door the group receives a larger collective reward. However, there is only one key for all of the doors, such that the collective reward can only be obtained when the agents drop the key for others after they use it. Notably, there is nothing to indicate to an agent that the other agents have dropped the key, thus this act for others is ahidden gift''. We show that several different state-of-the-art MARL algorithms, including MARL specific architectures, fail to learn how to obtain the collective reward in this simple task. Interestingly, we find that decentralized actor-critic policy gradient agents can succeed when we provide them with information about their own action history, but MARL agents still cannot solve the task with action history. Finally, we derive a correction term for policy gradient agents, inspired by learning aware approaches, which reduces the variance in learning and helps them to converge to collective success more reliably. These results show that credit assignment in multi-agent settings can be particularly challenging in the presence of ``hidden gifts'', and demonstrate that self learning-awareness in decentralized agents can benefit these settings.