KD-MARL: Resource-Aware Knowledge Distillation in Multi-Agent Reinforcement Learning

📄 arXiv: 2604.06691v1 📥 PDF

作者: Monirul Islam Pavel, Siyi Hu, Muhammad Anwar Masum, Mahardhika Pratama, Ryszard Kowalczyk, Zehong Jimmy Cao

分类: cs.AI

发布日期: 2026-04-08

备注: Accepted in IJCNN 2026


💡 一句话要点

提出KD-MARL,通过知识蒸馏实现多智能体强化学习在资源受限环境下的高效部署。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 知识蒸馏 资源受限 边缘计算 策略协调

📋 核心要点

  1. 现有MARL方法在资源受限设备上部署困难,专家策略模型庞大,计算成本高昂,难以满足边缘计算需求。
  2. KD-MARL通过两阶段知识蒸馏,将集中式专家的协调行为迁移到轻量级学生智能体,无需评论家,依赖优势信号和策略监督。
  3. 实验表明,KD-MARL在保持90%以上专家性能的同时,计算成本降低高达28.6倍,实现了高效的资源利用。

📝 摘要(中文)

多智能体强化学习(MARL)系统在现实世界的部署受到计算、内存和推理时间的限制。专家策略虽然性能优异,但依赖于高成本的决策周期和大规模模型,这对于边缘设备或嵌入式平台来说是不切实际的。知识蒸馏(KD)为资源感知执行提供了一条有希望的途径,但现有的MARL中的KD方法过于关注动作模仿,常常忽略了协调结构,并假设智能体具有统一的能力。我们提出了资源感知的多智能体强化学习知识蒸馏(KD-MARL),这是一个两阶段框架,将集中的专家策略的协调行为转移到轻量级的去中心化学生智能体。学生策略的训练不依赖于评论家,而是依赖于蒸馏的优势信号和结构化的策略监督,以在异构和有限的观察下保持协调。我们的方法转移了动作级别的行为和结构化的协调模式,同时支持异构的学生架构,允许每个智能体的模型容量与其观察复杂度相匹配,这对于在部分或有限可观察性和有限的板载资源下高效执行至关重要。在SMAC和MPE基准上的大量实验表明,KD-MARL在显著降低计算成本的同时,实现了高性能的保持。在标准的多智能体基准测试中,KD-MARL保留了超过90%的专家性能,同时将计算成本降低了高达28.6倍的FLOPs。该方法实现了专家级别的协调,并通过结构化的蒸馏保持了这种协调,从而能够在资源受限的板载平台上进行实际的MARL部署。

🔬 方法详解

问题定义:现有MARL算法训练出的专家策略模型通常参数量巨大,计算复杂度高,难以直接部署在资源受限的设备上,例如边缘设备或嵌入式平台。现有的知识蒸馏方法往往只关注动作模仿,忽略了多智能体之间的协调结构,并且假设所有智能体具有相同的计算能力,这在实际应用中是不合理的。

核心思路:KD-MARL的核心思路是通过知识蒸馏,将一个性能优异但计算成本高的专家策略的知识迁移到一个或多个轻量级的学生策略上。学生策略在训练过程中模仿专家策略的行为,同时学习专家策略的协调模式,从而在资源受限的环境下也能实现高性能。该方法允许学生智能体具有异构的架构,使其模型容量与观察复杂度相匹配,从而进一步提高资源利用率。

技术框架:KD-MARL是一个两阶段的框架。第一阶段是训练一个集中的专家策略。第二阶段是知识蒸馏,将专家策略的知识迁移到去中心化的学生策略上。学生策略的训练不依赖于评论家,而是依赖于从专家策略中蒸馏出的优势信号和结构化的策略监督。具体来说,优势信号用于指导学生策略的学习方向,结构化的策略监督用于保持学生策略之间的协调。

关键创新:KD-MARL的关键创新在于其资源感知的知识蒸馏方法。该方法不仅关注动作级别的行为模仿,还关注结构化的协调模式的迁移。此外,该方法还支持异构的学生架构,允许每个智能体的模型容量与其观察复杂度相匹配。这种资源感知的知识蒸馏方法使得KD-MARL能够在资源受限的环境下实现高性能。

关键设计:KD-MARL的关键设计包括:1) 使用优势信号作为蒸馏目标,指导学生策略的学习方向;2) 使用结构化的策略监督,保持学生策略之间的协调;3) 允许学生智能体具有异构的架构,使其模型容量与观察复杂度相匹配。具体的损失函数包括动作模仿损失、优势蒸馏损失和策略正则化损失。网络结构可以根据具体的任务和资源限制进行选择。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

KD-MARL在SMAC和MPE基准测试中表现出色,在保持超过90%专家性能的同时,计算成本降低高达28.6倍FLOPs。这表明KD-MARL能够有效地将专家策略的知识迁移到轻量级的学生策略上,并在资源受限的环境下实现高性能。该方法在多个多智能体基准测试中都取得了显著的性能提升。

🎯 应用场景

KD-MARL适用于需要在资源受限的边缘设备或嵌入式平台上部署多智能体强化学习系统的场景,例如无人机集群控制、机器人协同作业、智能交通管理等。该方法可以降低计算成本,提高部署效率,并为这些应用带来更智能、更高效的解决方案。未来,该方法可以进一步扩展到更复杂的环境和任务中。

📄 摘要(原文)

Real world deployment of multi agent reinforcement learning MARL systems is fundamentally constrained by limited compute memory and inference time. While expert policies achieve high performance they rely on costly decision cycles and large scale models that are impractical for edge devices or embedded platforms. Knowledge distillation KD offers a promising path toward resource aware execution but existing KD methods in MARL focus narrowly on action imitation often neglecting coordination structure and assuming uniform agent capabilities. We propose resource aware Knowledge Distillation for Multi Agent Reinforcement Learning KD MARL a two stage framework that transfers coordinated behavior from a centralized expert to lightweight decentralized student agents. The student policies are trained without a critic relying instead on distilled advantage signals and structured policy supervision to preserve coordination under heterogeneous and limited observations. Our approach transfers both action level behavior and structural coordination patterns from expert policies while supporting heterogeneous student architectures allowing each agent model capacity to match its observation complexity which is crucial for efficient execution under partial or limited observability and limited onboard resources. Extensive experiments on SMAC and MPE benchmarks demonstrate that KD MARL achieves high performance retention while substantially reducing computational cost. Across standard multi agent benchmarks KD MARL retains over 90 percent of expert performance while reducing computational cost by up to 28.6 times FLOPs. The proposed approach achieves expert level coordination and preserves it through structured distillation enabling practical MARL deployment across resource constrained onboard platforms.