Leveraging Large Language Models for Effective and Explainable Multi-Agent Credit Assignment

📄 arXiv: 2502.16863v1 📥 PDF

作者: Kartik Nagpal, Dayi Dong, Jean-Baptiste Bouvier, Negar Mehr

分类: cs.MA, cs.LG, cs.RO

发布日期: 2025-02-24

备注: 8 pages+Appendix, 6 Figures, AAMAS 2025


💡 一句话要点

利用大型语言模型进行有效且可解释的多智能体信用分配

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体强化学习 信用分配 大型语言模型 协作学习 奖励分解 任务分配 模式识别

📋 核心要点

  1. 多智能体协作学习中的信用分配问题难以解决,现有方法无法准确评估每个智能体的贡献。
  2. 论文提出LLM-MCA方法,将信用分配转化为序列改进和归因的模式识别问题,利用LLM进行奖励分解。
  3. 实验表明,该方法在多个基准测试中显著优于现有技术,并生成了带有智能体奖励注释的大型轨迹数据集。

📝 摘要(中文)

近期的研究表明,学习协作行为对于机器人实现共享目标至关重要,例如自动驾驶车辆协调和太空组装。中心化训练、分散式执行是一种常用的学习协作行为的方法。然而,这种方法也带来了一个新的挑战:如何评估每个智能体的行为对团队整体成功或失败的贡献。信用分配问题一直是多智能体强化学习领域的研究重点。事实上,人工检查智能体行为通常比现有方法产生更好的信用评估。我们将这一观察结果与最近的研究相结合,这些研究表明大型语言模型在许多模式识别任务中表现出人类水平的性能。我们的核心思想是将信用分配重新定义为序列改进和归因这两个模式识别问题,这促使我们提出了新的LLM-MCA方法。我们的方法利用中心化的LLM奖励评论器,根据每个智能体在场景中的个体贡献来数值分解环境奖励。然后,我们根据此反馈更新智能体的策略网络。我们还提出了一个扩展LLM-TACA,其中我们的LLM评论器通过将中间目标直接传递给场景中的每个智能体策略来执行显式任务分配。我们的方法在各种基准测试中都远远优于现有技术,包括Level-Based Foraging、Robotic Warehouse和我们新的Spaceworld基准测试,该基准测试结合了与碰撞相关的安全约束。作为我们方法的一个副产品,我们生成了大型轨迹数据集,其中每个时间步都用从我们的LLM评论器采样的每个智能体的奖励信息进行注释。

🔬 方法详解

问题定义:多智能体强化学习中的信用分配问题,即如何评估每个智能体的行为对团队整体目标的贡献。现有方法,如差分奖励或反事实基线,往往无法准确捕捉智能体间的复杂交互,导致学习效率低下。人工评估虽然更准确,但成本高昂且难以扩展。

核心思路:将信用分配问题重新定义为两个模式识别问题:序列改进和归因。序列改进是指判断一个行为序列是否优于另一个序列;归因是指将整体结果归因于各个智能体的行为。利用大型语言模型(LLM)在模式识别方面的强大能力,学习人类专家评估信用方式。

技术框架:该方法包含两个主要变体:LLM-MCA和LLM-TACA。LLM-MCA使用中心化的LLM奖励评论器,根据每个智能体的贡献分解环境奖励,并以此更新智能体的策略网络。LLM-TACA则更进一步,LLM评论器为每个智能体分配中间目标,直接指导智能体的策略学习。整体流程包括:1. 智能体执行动作并获得环境反馈;2. LLM评论器根据智能体行为评估信用并生成奖励;3. 智能体根据LLM提供的奖励更新策略。

关键创新:核心创新在于利用LLM进行信用分配,将复杂的信用分配问题转化为LLM擅长的模式识别任务。与传统方法相比,LLM能够更好地理解智能体间的交互,并给出更准确的信用评估。此外,LLM-TACA通过显式任务分配,进一步提升了智能体的协作能力。

关键设计:LLM评论器的prompt设计至关重要,需要包含足够的环境信息和智能体行为描述,以便LLM能够准确评估信用。奖励分解的具体方式(例如,使用LLM生成每个智能体的奖励值)以及策略更新算法的选择也会影响最终性能。论文中使用了PPO等常用的强化学习算法进行策略更新。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM-MCA和LLM-TACA在Level-Based Foraging、Robotic Warehouse和Spaceworld等多个基准测试中均显著优于现有技术。尤其是在Spaceworld基准测试中,该方法能够有效处理与碰撞相关的安全约束,展现了其在复杂环境下的优越性能。具体性能提升数据在论文中给出。

🎯 应用场景

该研究成果可应用于各种多智能体协作场景,如自动驾驶车辆编队、机器人仓库管理、太空机器人组装等。通过更准确的信用分配,可以提高多智能体系统的学习效率和协作能力,从而实现更复杂、更高效的任务执行。此外,该方法生成的带有智能体奖励注释的轨迹数据集,可用于进一步研究多智能体强化学习算法。

📄 摘要(原文)

Recent work, spanning from autonomous vehicle coordination to in-space assembly, has shown the importance of learning collaborative behavior for enabling robots to achieve shared goals. A common approach for learning this cooperative behavior is to utilize the centralized-training decentralized-execution paradigm. However, this approach also introduces a new challenge: how do we evaluate the contributions of each agent's actions to the overall success or failure of the team. This credit assignment problem has remained open, and has been extensively studied in the Multi-Agent Reinforcement Learning literature. In fact, humans manually inspecting agent behavior often generate better credit evaluations than existing methods. We combine this observation with recent works which show Large Language Models demonstrate human-level performance at many pattern recognition tasks. Our key idea is to reformulate credit assignment to the two pattern recognition problems of sequence improvement and attribution, which motivates our novel LLM-MCA method. Our approach utilizes a centralized LLM reward-critic which numerically decomposes the environment reward based on the individualized contribution of each agent in the scenario. We then update the agents' policy networks based on this feedback. We also propose an extension LLM-TACA where our LLM critic performs explicit task assignment by passing an intermediary goal directly to each agent policy in the scenario. Both our methods far outperform the state-of-the-art on a variety of benchmarks, including Level-Based Foraging, Robotic Warehouse, and our new Spaceworld benchmark which incorporates collision-related safety constraints. As an artifact of our methods, we generate large trajectory datasets with each timestep annotated with per-agent reward information, as sampled from our LLM critics.