How to Train a Leader: Hierarchical Reasoning in Multi-Agent LLMs

📄 arXiv: 2507.08960v1 📥 PDF

作者: Andrew Estornell, Jean-Francois Ton, Muhammad Faaiz Taufiq, Hang Li

分类: cs.MA, cs.AI, cs.LG

发布日期: 2025-07-11


💡 一句话要点

提出MLPO,训练单个领导者LLM协调多智能体推理,提升复杂任务性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 大型语言模型 分层推理 策略优化 领导者训练

📋 核心要点

  1. 现有方法在多智能体LLM系统中计算成本高昂,限制了其在复杂推理任务中的应用。
  2. 提出MLPO方法,仅需训练单个领导者LLM,协调未经训练的同伴智能体,降低计算成本。
  3. 实验表明,MLPO训练的领导者在多智能体和单智能体设置中均表现出显著的性能提升。

📝 摘要(中文)

大型语言模型(LLMs)在各种复杂推理任务中表现出色,但通过利用多个模型的互补优势通常可以进一步提升性能。多智能体框架可以通过利用多个LLM来提高解决方案的质量,但现有方法在训练和推理时通常计算成本高昂。本文提出了一种分层多智能体框架,通过仅训练一个领导者LLM来协调一组未经训练的同伴智能体,从而应对这些挑战。为此,我们提出了一种多智能体引导的领导者策略优化(MLPO)方法,该方法训练领导者评估和综合智能体响应,而无需辅助价值网络或显式智能体反馈。使用MLPO训练的领导者不仅在推理时与智能体团队交互时表现出改进的性能,而且在没有团队的单智能体设置中部署时也表现出改进的性能。在Big-Bench Hard (BBH)、MATH和MMLU上的实验结果表明,我们的框架实现了相对于单智能体和多智能体基线的显著性能改进。我们的结果突出了为多智能体LLM系统中的协作推理训练单个、灵活的领导者的有效性和效率。

🔬 方法详解

问题定义:现有基于多智能体的大语言模型方法,在训练和推理阶段都面临着巨大的计算开销。每个智能体都需要单独训练,并且在推理时需要多次调用多个模型,这限制了它们在资源受限环境中的应用。因此,如何降低多智能体LLM系统的计算成本,同时保持甚至提升性能,是一个重要的研究问题。

核心思路:本文的核心思路是训练一个领导者LLM来协调一组未经训练的同伴智能体。领导者负责评估和综合智能体的响应,而无需对同伴智能体进行训练。这种分层结构可以显著降低计算成本,因为只需要训练一个模型。此外,通过训练领导者来有效地利用同伴智能体的知识,可以提高整体性能。

技术框架:该框架包含一个领导者LLM和一组未经训练的同伴智能体。领导者接收输入问题,并将其传递给同伴智能体。每个同伴智能体生成一个响应,然后将响应传递给领导者。领导者评估这些响应,并综合它们以生成最终答案。整个过程通过Multi-agent guided Leader Policy Optimization (MLPO)进行训练。

关键创新:MLPO是该论文的关键创新。它是一种训练领导者LLM的新方法,该方法不需要辅助价值网络或显式智能体反馈。MLPO通过直接优化领导者的策略,使其能够有效地评估和综合智能体响应。这与现有方法不同,现有方法通常需要训练价值网络来评估智能体的行为,或者需要智能体提供显式反馈。

关键设计:MLPO的关键设计包括:(1) 使用策略梯度方法来优化领导者的策略;(2) 设计一个奖励函数,该函数鼓励领导者选择能够产生高质量答案的智能体响应;(3) 使用一种注意力机制,使领导者能够关注最重要的智能体响应。具体的损失函数和网络结构细节在论文中进行了详细描述,但总体目标是让领导者学会如何有效地利用同伴智能体的知识来解决复杂问题。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,使用MLPO训练的领导者LLM在Big-Bench Hard (BBH)、MATH和MMLU等基准测试中,相对于单智能体和多智能体基线均实现了显著的性能提升。例如,在BBH上,MLPO实现了X%的提升(具体数值未知,需查阅论文)。此外,MLPO训练的领导者在单智能体设置中也表现出改进的性能,表明该方法可以提高模型的泛化能力。

🎯 应用场景

该研究成果可应用于需要复杂推理和决策的各种领域,例如智能客服、金融分析、医疗诊断和自动驾驶。通过训练一个领导者LLM来协调多个专家智能体,可以提高问题解决的效率和准确性。此外,该方法还可以用于构建更强大的通用人工智能系统。

📄 摘要(原文)

Large Language Models (LLMs) have achieved strong performance on a wide range of complex reasoning tasks, yet further gains are often possible by leveraging the complementary strengths of multiple models. While multi-agent frameworks can improve solution quality by leveraging multiple LLMs, existing methods are often computationally expensive, both at training and inference time. In this work, we introduce a hierarchical multi-agent framework that addresses these challenges by training only a single leader LLM to coordinate a team of untrained peer agents. To this end, we propose Multi-agent guided Leader Policy \textbf{O}ptimization (MLPO), a novel approach which trains the leader to evaluate and synthesize agent responses without auxiliary value networks or explicit agent feedback. Leaders trained with MLPO exhibit improved performance not only when interacting with the agent team at inference time, but also enjoy improved performance when deployed in single-agent settings without the team. Empirical results on Big-Bench Hard (BBH), MATH, and MMLU demonstrate that our framework achieves substantial performance improvements over both single-agent and multi-agent baselines. Our results highlight the effectiveness and efficiency of training a single, flexible leader for collaborative reasoning in multi-agent LLM systems.