LEMON: Learning Executable Multi-Agent Orchestration via Counterfactual Reinforcement Learning

作者: Xudong Chen, Yixin Liu, Hua Wei, Kaize Ding

分类: cs.AI

发布日期: 2026-05-14

备注: Submitted to Neurips 2026

💡 一句话要点

LEMON：通过反事实强化学习学习可执行的多智能体编排

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 编排 大型语言模型 反事实强化学习 角色设计 能力分配 依赖关系构建

📋 核心要点

现有方法在多智能体编排中，角色设计、能力分配和依赖关系构建的优化是部分或顺序进行的，缺乏全局优化。
LEMON提出了一种基于LLM的编排器，通过反事实强化学习生成可执行的编排规范，实现角色、能力和依赖关系的联合优化。
在六个推理和编码基准测试中，LEMON取得了最先进的性能，证明了其在多智能体编排方面的有效性。

📝 摘要（中文）

大型语言模型（LLMs）已成为多智能体系统的强大基础，但其有效性在很大程度上取决于编排设计。在不同的任务中，角色设计、能力分配和依赖关系构建共同影响解决方案的质量和执行效率。现有的方法虽然自动化了部分设计过程，但通常是部分或顺序地优化这些决策，并且依赖于执行级别的反馈，这为局部编排决策提供的信用分配有限。我们提出了LEMON（通过反事实强化学习学习可执行的多智能体编排），这是一个基于LLM的编排器，可以生成可执行的编排规范。该规范将特定于任务的角色、定制的职责、能力级别和依赖关系结构集成到一个可部署的系统中。为了训练编排器，我们使用局部反事实信号来增强编排级别的GRPO目标，该信号编辑角色、能力或依赖关系字段，并将由此产生的奖励对比仅应用于编辑后的跨度。在包括MMLU、GSM8K、AQuA、MultiArith、SVAMP和HumanEval在内的六个推理和编码基准测试中进行的实验表明，LEMON在评估的多智能体编排方法中实现了最先进的性能。

🔬 方法详解

问题定义：现有的多智能体系统编排方法通常采用局部或顺序优化策略，无法充分考虑角色设计、能力分配和依赖关系构建之间的相互影响。此外，它们依赖于执行级别的反馈，这使得对局部编排决策进行有效的信用分配变得困难。这导致了次优的解决方案质量和执行效率。

核心思路：LEMON的核心思路是利用大型语言模型（LLMs）作为编排器，生成一个可执行的编排规范，该规范集成了任务特定的角色、定制的职责、能力级别和依赖关系结构。通过反事实强化学习，LEMON能够学习如何联合优化这些编排决策，从而提高解决方案的质量和执行效率。

技术框架：LEMON的技术框架包括以下几个主要模块：1) 基于LLM的编排器：负责生成可执行的编排规范。2) 反事实奖励生成器：通过编辑角色、能力或依赖关系字段，并观察由此产生的奖励变化，生成局部反事实信号。3) 强化学习优化器：使用GRPO目标和反事实信号来训练编排器，使其能够学习如何做出更好的编排决策。整体流程是，编排器生成编排方案，环境执行该方案并给出奖励，反事实奖励生成器生成反事实奖励信号，强化学习优化器利用这些信号更新编排器。

关键创新：LEMON的关键创新在于其使用反事实强化学习来训练LLM编排器。通过引入局部反事实信号，LEMON能够更有效地进行信用分配，从而学习如何联合优化角色、能力和依赖关系。这与现有方法依赖于执行级别的反馈形成了鲜明对比。

关键设计：LEMON的关键设计包括：1) 使用GRPO目标作为编排级别的奖励信号。2) 设计反事实奖励生成器，通过编辑编排规范的不同部分来生成局部反事实信号。3) 将反事实信号应用于编辑后的跨度，以实现更精确的信用分配。具体的参数设置和网络结构细节在论文中未明确给出，属于未知信息。

🖼️ 关键图片

📊 实验亮点

LEMON在六个推理和编码基准测试（MMLU、GSM8K、AQuA、MultiArith、SVAMP和HumanEval）中取得了最先进的性能。具体性能数据和提升幅度在论文中未明确给出，属于未知信息。但总体而言，实验结果表明LEMON在多智能体编排方面具有显著的优势。

🎯 应用场景

LEMON具有广泛的应用前景，可以应用于各种需要多智能体协作的场景，例如软件开发、机器人控制、任务调度和资源管理。通过自动生成优化的编排规范，LEMON可以提高多智能体系统的效率和性能，降低开发和维护成本。未来，LEMON可以进一步扩展到更复杂的任务和环境，并与其他技术（如知识图谱和自然语言处理）相结合，以实现更智能化的多智能体系统。

📄 摘要（原文）

Large language models (LLMs) have become a strong foundation for multi-agent systems, but their effectiveness depends heavily on orchestration design. Across different tasks, role design, capacity assignment, and dependency construction jointly affect both solution quality and execution efficiency. Existing approaches automate parts of this design process, yet they often optimize these decisions partially or sequentially, and rely on execution-level feedback that provides limited credit assignment for local orchestration decisions. We propose LEMON (\textbf{L}earning \textbf{E}xecutable \textbf{M}ulti-agent \textbf{O}rchestratio\textbf{N} via Counterfactual Reinforcement Learning), an LLM-based orchestrator that generates an executable orchestration specification. The specification integrates task-specific roles, customized duties, capacity levels, and dependency structure into a single deployable system. To train the orchestrator, we augment the orchestration-level GRPO objective with a localized counterfactual signal that edits role, capacity, or dependency fields and applies the resulting reward contrast only to the edited spans. Experiments on six reasoning and coding benchmarks, including MMLU, GSM8K, AQuA, MultiArith, SVAMP, and HumanEval, show that LEMON achieves state-of-the-art performance among the evaluated multi-agent orchestration methods. Our code is available at https://anonymous.4open.science/r/LEMON-B23C.

LEMON: Learning Executable Multi-Agent Orchestration via Counterfactual Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理