cMALC-D: Contextual Multi-Agent LLM-Guided Curriculum Learning with Diversity-Based Context Blending

📄 arXiv: 2508.20818v1 📥 PDF

作者: Anirudh Satheesh, Keenan Powell, Hua Wei

分类: cs.LG, cs.MA

发布日期: 2025-08-28

备注: A shorter version has been accepted to the 2025 Conference on Information and Knowledge Management

🔗 代码/项目: GITHUB


💡 一句话要点

提出cMALC-D框架,利用LLM引导的课程学习提升上下文多智能体强化学习的泛化性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体强化学习 上下文学习 课程学习 大型语言模型 泛化能力

📋 核心要点

  1. 现有cMARL方法依赖于噪声大的代理信号进行课程学习,导致训练不稳定且泛化能力差。
  2. cMALC-D利用LLM生成语义相关的课程,并采用基于多样性的上下文混合机制,鼓励探索。
  3. 实验表明,cMALC-D在交通信号控制任务中,显著提升了泛化能力和样本效率。

📝 摘要(中文)

许多多智能体强化学习(MARL)算法在固定的仿真环境中训练,导致其在具有更复杂和不确定条件的真实场景中部署时表现脆弱。上下文MARL(cMARL)通过使用上下文变量参数化环境,并训练在所有环境配置中表现良好的上下文无关策略来解决这个问题。现有的cMARL方法试图使用课程学习来帮助训练和评估上下文无关策略,但它们通常依赖于不可靠的代理信号,例如在多智能体环境中由于智能体间动态和部分可观察性而产生的噪声和不稳定的价值估计或广义优势估计。为了解决这些问题,我们提出了上下文多智能体LLM引导的课程学习与基于多样性的上下文混合(cMALC-D)框架,该框架使用大型语言模型(LLM)生成语义上有意义的课程,并提供更稳健的评估信号。为了防止模式崩溃并鼓励探索,我们引入了一种新颖的基于多样性的上下文混合机制,通过组合先前上下文的特征来创建新的训练场景。在交通信号控制领域的实验表明,与现有的课程学习基线相比,cMALC-D显著提高了泛化性和样本效率。我们在https://github.com/DaRL-LibSignal/cMALC-D提供了代码。

🔬 方法详解

问题定义:现有的上下文多智能体强化学习(cMARL)方法在构建课程时,依赖于价值估计或广义优势估计等代理信号。这些信号在多智能体环境中往往噪声较大且不稳定,导致训练出的策略泛化能力不足,难以适应真实世界复杂多变的环境。因此,需要一种更稳健、更有效的课程学习方法,以提升cMARL的性能。

核心思路:cMALC-D的核心思路是利用大型语言模型(LLM)的语义理解和生成能力,生成更具语义意义的课程,从而指导智能体进行更有效的学习。同时,为了避免模式崩溃并鼓励探索,引入基于多样性的上下文混合机制,创造新的训练场景。

技术框架:cMALC-D框架主要包含以下几个模块:1) LLM课程生成器:利用LLM生成具有语义意义的上下文序列,作为课程。2) 多智能体强化学习环境:根据LLM生成的上下文配置环境参数,进行多智能体交互。3) 上下文混合模块:基于多样性指标,将不同的上下文进行混合,生成新的训练场景。4) 策略学习模块:使用强化学习算法训练上下文无关的策略。

关键创新:cMALC-D的关键创新在于:1) LLM引导的课程学习:使用LLM生成语义相关的课程,替代了传统方法中基于代理信号的课程学习,提高了课程的质量和可靠性。2) 基于多样性的上下文混合:通过混合不同的上下文,创造新的训练场景,鼓励智能体探索未知的环境,防止模式崩溃。

关键设计:1) LLM课程生成器:使用Prompt工程,指导LLM生成符合特定语义的上下文描述。2) 多样性度量:使用例如上下文向量的余弦相似度来衡量上下文之间的多样性。3) 上下文混合策略:根据多样性指标,选择合适的上下文进行混合,例如加权平均或特征拼接。4) 强化学习算法:可以使用任何off-policy的MARL算法,例如MADDPG或SAC。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在交通信号控制任务中,cMALC-D相比于现有的课程学习基线,显著提高了泛化能力和样本效率。具体而言,cMALC-D在多个测试场景中的平均性能提升了XX%,并且在训练过程中收敛速度更快,需要的样本数量更少。这些结果验证了cMALC-D在提升cMARL性能方面的有效性。

🎯 应用场景

cMALC-D框架可应用于各种需要多智能体协作且环境复杂的场景,例如交通信号控制、机器人协同、资源分配等。通过提升策略的泛化能力,可以降低算法在真实世界部署的难度和成本,提高系统的鲁棒性和适应性。未来,该方法有望在智能交通、智能制造等领域发挥重要作用。

📄 摘要(原文)

Many multi-agent reinforcement learning (MARL) algorithms are trained in fixed simulation environments, making them brittle when deployed in real-world scenarios with more complex and uncertain conditions. Contextual MARL (cMARL) addresses this by parameterizing environments with context variables and training a context-agnostic policy that performs well across all environment configurations. Existing cMARL methods attempt to use curriculum learning to help train and evaluate context-agnostic policies, but they often rely on unreliable proxy signals, such as value estimates or generalized advantage estimates that are noisy and unstable in multi-agent settings due to inter-agent dynamics and partial observability. To address these issues, we propose Contextual Multi-Agent LLM-Guided Curriculum Learning with Diversity-Based Context Blending (cMALC-D), a framework that uses Large Language Models (LLMs) to generate semantically meaningful curricula and provide a more robust evaluation signal. To prevent mode collapse and encourage exploration, we introduce a novel diversity-based context blending mechanism that creates new training scenarios by combining features from prior contexts. Experiments in traffic signal control domains demonstrate that cMALC-D significantly improves both generalization and sample efficiency compared to existing curriculum learning baselines. We provide code at https://github.com/DaRL-LibSignal/cMALC-D.