PC3D: Zero-Shot Cooperation Across Variable Rosters via Personalized Context Distillation
作者: Ahmet Onur Akman, Rafał Kucharski
分类: cs.LG, cs.MA
发布日期: 2026-05-11
💡 一句话要点
提出PC3D框架,通过个性化上下文蒸馏实现多智能体系统在变动规模下的零样本协作
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多智能体强化学习 零样本泛化 上下文蒸馏 去中心化协作 变长团队规模 策略迁移
📋 核心要点
- 现有MARL方法多依赖固定团队规模,难以应对部署时活跃智能体数量动态变化的挑战。
- PC3D通过中央教师将团队信息压缩为协调Token,并将其蒸馏至去中心化策略,使智能体能从局部历史中推断上下文。
- 实验表明,该方法在多个基准测试中显著提升了协作性能,且在未见过的团队规模下展现出强大的零样本泛化能力。
📝 摘要(中文)
协作多智能体强化学习(MARL)通常假设执行团队规模固定,但在实际去中心化系统中,部署时的活跃智能体数量往往会发生变化。本文研究了情景化名单变动(episodic roster variation)场景,即每轮任务由同质智能体组成,但团队规模在不同轮次间波动。由于智能体仅能基于局部历史进行决策,且执行时无通信、无特权协调者或在线重训练,因此智能体必须从局部交互历史中恢复团队上下文并调整行为。为此,作者提出了PC3D(个性化中央协调上下文蒸馏)方法。在训练阶段,利用集合结构的中央教师将活跃团队压缩为协调Token,并将其个性化为智能体特定的上下文,进而蒸馏至去中心化策略中。在执行阶段,智能体通过局部历史预测自身上下文,并据此调节决策。在三个MARL基准测试中,PC3D在已知和未知团队规模下均优于现有基线,证明了上下文蒸馏与自适应使用的有效性。
🔬 方法详解
问题定义:论文旨在解决去中心化多智能体系统在“名单变动”(Roster Variation)场景下的协作难题。现有方法通常假设智能体数量固定,当团队规模在执行时发生变化,智能体无法感知团队整体状态,导致协作失效。
核心思路:引入“上下文蒸馏”范式。通过训练一个拥有全局视角的中央教师模型,将团队协作信息转化为个性化的上下文表示,并将其蒸馏给仅具备局部观测的去中心化策略,从而赋予智能体在无通信条件下推断团队状态的能力。
技术框架:PC3D包含两个阶段:训练阶段采用中央教师模型,利用集合结构(Set-structured)处理变长输入,生成协调Token并映射为智能体特定的上下文;执行阶段,去中心化策略通过历史编码器预测上下文,并将其作为条件输入到策略网络中进行决策。
关键创新:核心创新在于将全局协调信息“个性化”并“蒸馏”至局部策略。与传统方法不同,它不依赖执行时的通信协议,而是通过隐式上下文推断实现零样本的规模泛化。
关键设计:采用了基于Transformer或集合编码器的中央教师架构,通过监督学习或蒸馏损失函数,强制去中心化策略的隐空间与中央教师生成的上下文对齐,确保智能体能从局部轨迹中提取出与当前团队规模匹配的协调信息。
🖼️ 关键图片
📊 实验亮点
PC3D在三个主流MARL基准测试中表现优异,在处理已知及未见过的团队规模时,均显著超越了现有的去中心化基线模型。消融实验证实,上下文蒸馏机制与自适应上下文调节策略是性能提升的关键,证明了该方法在零样本泛化能力上的显著优势。
🎯 应用场景
该技术适用于资源受限且规模动态变化的去中心化系统,如无人机集群编队、动态物流机器人仓储系统以及分布式传感器网络。其无需实时通信的特性,使其在通信受限或高延迟的复杂环境中具有极高的实际应用价值,能有效提升多智能体系统在任务执行过程中的鲁棒性与协作效率。
📄 摘要(原文)
Cooperative multi-agent reinforcement learning often assumes a fixed execution team, yet many decentralized systems must operate with varying numbers of active agents during deployment. We study this setting under episodic roster variation: each episode is executed by a set of homogeneous agents, with the team size varying across episodes. Agents act only from local histories, without execution-time communication, privileged coordinators, or online retraining. Therefore, effective cooperation requires each agent to recover relevant context about the active team and adapt its behavior accordingly. To this end, we propose PC3D (Personalized Central Coordination Context Distillation), a method for training decentralized policies to recover and use personalized coordination context from local interaction histories. During training, a set-structured centralized teacher compresses the active team into coordination tokens and personalizes them into agent-specific contexts, which are distilled into decentralized policies. At execution, each agent predicts its own context from local history and adaptively uses it to condition decision-making. Across three cooperative MARL benchmarks, PC3D achieves higher returns than the evaluated baselines with both seen and unseen roster sizes, and ablations attribute these gains to both context distillation and adaptive context use.