O-MAPL: Offline Multi-agent Preference Learning

📄 arXiv: 2501.18944v1 📥 PDF

作者: The Viet Bui, Tien Mai, Hong Thanh Nguyen

分类: cs.LG, cs.MA

发布日期: 2025-01-31


💡 一句话要点

O-MAPL:离线多智能体偏好学习框架,提升合作博弈任务性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 偏好学习 奖励函数学习 价值分解 合作博弈

📋 核心要点

  1. 多智能体强化学习中,从演示数据学习奖励函数面临联合状态-动作空间大和智能体交互复杂等挑战。
  2. 论文提出端到端的偏好学习框架O-MAPL,利用奖励函数和软Q函数的联系,实现更稳定的训练。
  3. 实验表明,O-MAPL在SMAC和MAMuJoCo基准测试中,性能优于现有方法,验证了其有效性。

📝 摘要(中文)

从演示中推断奖励函数是强化学习(RL)中的一个关键挑战,尤其是在多智能体强化学习(MARL)中,因为其庞大的联合状态-动作空间和复杂的智能体间交互使任务变得复杂。虽然之前的单智能体研究已经探索了从人类偏好中恢复奖励函数和策略,但MARL中类似的工作有限。现有方法通常涉及监督奖励学习和MARL算法的独立阶段,导致训练不稳定。本文提出了一种新颖的端到端偏好学习框架,用于合作MARL,利用奖励函数和软Q函数之间的潜在联系。我们的方法使用精心设计的多智能体价值分解策略来提高训练效率。在SMAC和MAMuJoCo基准上的大量实验表明,我们的算法在各种任务中优于现有方法。

🔬 方法详解

问题定义:论文旨在解决合作多智能体强化学习中,如何有效地从智能体的偏好数据中学习奖励函数的问题。现有方法通常将奖励学习和策略学习分为两个阶段,导致训练不稳定,且难以处理复杂的智能体交互。

核心思路:论文的核心思路是建立一个端到端的偏好学习框架,直接从智能体的偏好数据中学习策略,避免了显式地学习奖励函数。该框架利用奖励函数和软Q函数之间的内在联系,将偏好学习问题转化为一个优化软Q函数的问题。

技术框架:O-MAPL框架主要包含以下几个模块:1) 偏好数据收集模块:收集智能体对不同行为轨迹的偏好数据。2) 软Q函数学习模块:利用偏好数据,通过优化一个基于排序损失的函数来学习软Q函数。3) 多智能体价值分解模块:采用精心设计的价值分解策略,将联合Q函数分解为个体Q函数,以提高训练效率。4) 策略优化模块:基于学习到的软Q函数,采用策略梯度方法优化智能体的策略。

关键创新:O-MAPL的关键创新在于提出了一个端到端的偏好学习框架,避免了显式地学习奖励函数,从而提高了训练的稳定性和效率。此外,论文还提出了一种新的多智能体价值分解策略,进一步提高了训练效率。

关键设计:O-MAPL的关键设计包括:1) 使用排序损失函数来学习软Q函数,该损失函数能够有效地利用偏好数据。2) 采用软Q学习算法来优化策略,该算法能够探索更多的状态空间。3) 设计了一种新的多智能体价值分解策略,该策略能够有效地分解联合Q函数,并提高训练效率。具体的价值分解策略细节未知,需要在论文中查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

O-MAPL在SMAC和MAMuJoCo基准测试中取得了显著的性能提升,证明了其有效性。具体而言,O-MAPL在多个SMAC地图上超越了现有的偏好学习算法,并在MAMuJoCo的合作任务中取得了更高的平均奖励。具体的性能数据和提升幅度需要在论文中查找。

🎯 应用场景

该研究成果可应用于机器人协同控制、自动驾驶、智能交通等领域。通过学习人类或专家的偏好,可以使多智能体系统更好地适应实际应用场景,提高系统的性能和鲁棒性。未来的研究可以探索将该方法应用于更复杂的任务和环境,例如具有非合作智能体的场景。

📄 摘要(原文)

Inferring reward functions from demonstrations is a key challenge in reinforcement learning (RL), particularly in multi-agent RL (MARL), where large joint state-action spaces and complex inter-agent interactions complicate the task. While prior single-agent studies have explored recovering reward functions and policies from human preferences, similar work in MARL is limited. Existing methods often involve separate stages of supervised reward learning and MARL algorithms, leading to unstable training. In this work, we introduce a novel end-to-end preference-based learning framework for cooperative MARL, leveraging the underlying connection between reward functions and soft Q-functions. Our approach uses a carefully-designed multi-agent value decomposition strategy to improve training efficiency. Extensive experiments on SMAC and MAMuJoCo benchmarks show that our algorithm outperforms existing methods across various tasks.