SMAC-R1: The Emergence of Intelligence in Decision-Making Tasks

📄 arXiv: 2410.16024v3 📥 PDF

作者: Yue Deng, Weiyu Ma, Yuxin Fan, Ruyi Song, Yin Zhang, Haifeng Zhang, Jian Zhao

分类: cs.AI

发布日期: 2024-10-21 (更新: 2025-03-06)


💡 一句话要点

SMAC-R1:基于LLM蒸馏的星际争霸多智能体决策智能涌现

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 大型语言模型 决策树 蒸馏学习 代码生成 星际争霸 可解释性

📋 核心要点

  1. 传统多智能体强化学习(MARL)算法训练参数模型需要数百万步的环境交互,且策略通常不可解释,泛化能力弱。
  2. SMAC-R1利用大型语言模型(LLM)生成决策树代码,并通过环境反馈进行自省,然后蒸馏到小型LLM中,实现高效决策。
  3. 实验表明,SMAC-R1能生成高质量、可解释的决策树,且具有很强的迁移性,在SMAC任务中表现出色。

📝 摘要(中文)

本文提出了SMAC-R1,一种基于Qwen2.5-7B-Base LLM的方法,该模型通过DeepSeek-Coder-v2.5-236B进行蒸馏。类似于离线学习中行为克隆后的在线强化学习,该方法利用DeepSeek LLM根据任务描述生成决策树代码,并使用环境提供的奖励进行自我反思。在此基础上,通过监督微调(SFT)增强生成脚本,微调小型LLM Qwen2.5-7B-Base,以提炼决策能力,并通过群体相对策略优化(GRPO)算法增强脚本生成能力。在原始的23个SMAC任务和10个新设计的任务中进行的实验表明,该方法能够以最小的环境探索产生高质量、可解释的决策树。此外,这些脚本表现出强大的可迁移性,无需修改即可成功应用于同构SMAC环境。我们相信这种方法为解决决策任务和未来特定领域的LLM训练管道提供了一个新的方向。

🔬 方法详解

问题定义:论文旨在解决多智能体强化学习中,传统方法训练效率低、策略不可解释、泛化能力差的问题。现有方法需要大量的环境交互才能训练出有效的策略,并且学习到的策略通常是黑盒,难以理解和调试,难以迁移到新的环境。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大代码生成能力,将决策过程表示为可解释的决策树代码。通过LLM生成初始策略,然后利用环境反馈进行自省和改进,最后将学习到的决策能力蒸馏到小型LLM中,从而实现高效、可解释和可泛化的多智能体决策。

技术框架:SMAC-R1的技术框架主要包含以下几个阶段: 1. LLM代码生成:使用DeepSeek LLM根据任务描述生成决策树代码。 2. 环境交互与自省:智能体与环境交互,根据环境奖励进行自我反思,并改进生成的代码。 3. 监督微调(SFT):使用改进后的代码对小型LLM(Qwen2.5-7B-Base)进行监督微调,以提炼决策能力。 4. 群体相对策略优化(GRPO):使用GRPO算法增强脚本生成能力。

关键创新:该方法最重要的技术创新点在于利用LLM生成可解释的决策树代码,并将决策过程表示为人类可理解的形式。与传统的MARL方法相比,SMAC-R1无需从零开始学习策略,而是利用LLM的先验知识快速生成有效的策略,并通过环境反馈进行改进。此外,通过蒸馏到小型LLM,可以实现更高效的推理和部署。

关键设计:论文的关键设计包括: 1. 使用DeepSeek-Coder-v2.5-236B作为初始LLM,利用其强大的代码生成能力。 2. 设计合适的奖励函数,引导LLM生成有效的决策树代码。 3. 使用监督微调(SFT)和群体相对策略优化(GRPO)算法,提高小型LLM的决策能力和代码生成能力。 4. 设计了10个新的SMAC任务,用于评估算法的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SMAC-R1在原始的23个SMAC任务和10个新设计的任务中均取得了良好的效果,能够生成高质量、可解释的决策树。此外,该方法具有很强的迁移性,无需修改即可成功应用于同构SMAC环境。这些结果表明,SMAC-R1为解决多智能体决策问题提供了一种新的有效方法。

🎯 应用场景

该研究成果可应用于各种需要多智能体协作的决策任务,例如机器人协同、自动驾驶、智能交通管理、资源调度等。通过利用LLM生成可解释的决策策略,可以提高系统的可靠性和可控性,并促进人机协作。此外,该方法为领域特定LLM的训练提供了一种新的思路,可以应用于其他需要代码生成能力的领域。

📄 摘要(原文)

StarCraft Multi-Agent Challenge (SMAC) has been one of the most commonly used experimental environments in multi-agent reinforcement learning (MARL), where the specific task is to control a set number of allied units to defeat enemy forces. Traditional MARL algorithms often require interacting with the environment for millions of steps to train a parametric model, of which the resulting policies are typically non-interpretable with weak transferability. In this paper, we introduce SMAC-R1 which is based on the Qwen2.5-7B-Base LLM distilled from DeepSeek-Coder-v2.5-236B. Similar to online reinforcement learning after behavior cloning in offline learning process, in our pipeline, agents leverage the DeepSeek LLM to generate decision tree code by providing task descriptions, and the agents are further self-reflected using feedback from the rewards provided by the environment. Based on that, we augment the generated scripts to fine-tune a small LLM, Qwen2.5-7B-Base, to distill the decision-making ability via Supervised Fine-Tuning (SFT) and enhance the script generation ability by the Group Relative Policy Optimization (GRPO) algorithm. We conduct experiments in the original 23 SMAC tasks and 10 newly-designed tasks to demonstrate that our method can produce high-quality, interpretable decision trees with minimal environmental exploration. Moreover, these scripts exhibit strong transferability, successfully applying to homogeneous SMAC environments without modification. We believe this approach offers a new direction for solving decision-making tasks and domain-specific LLM training pipelines in the future.