Multi-Agent Evolve: LLM Self-Improve through Co-evolution

📄 arXiv: 2510.23595v3 📥 PDF

作者: Yixing Chen, Yiding Wang, Siqi Zhu, Haofei Yu, Tao Feng, Muhan Zhang, Mostofa Patwary, Jiaxuan You

分类: cs.AI

发布日期: 2025-10-27 (更新: 2025-10-30)

备注: 29 pages, 4 figures


💡 一句话要点

提出Multi-Agent Evolve框架,通过多智能体协同进化提升LLM推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 自进化 多智能体系统 协同进化

📋 核心要点

  1. 现有基于强化学习的LLM推理能力提升方法依赖于人工标注数据集和可验证奖励,限制了其可扩展性和通用性。
  2. MAE框架通过构建Proposer、Solver和Judge三个智能体,利用强化学习优化它们之间的协同,实现LLM的自进化。
  3. 实验结果表明,MAE在多个基准测试上取得了显著的性能提升,验证了其在提升LLM通用推理能力方面的有效性。

📝 摘要(中文)

本文提出Multi-Agent Evolve (MAE) 框架,旨在提升大型语言模型 (LLM) 在数学、推理和通用知识问答等任务中的自进化能力。MAE 的核心设计基于三个相互作用的智能体(Proposer、Solver、Judge),它们均由单个 LLM 实例化,并通过强化学习优化各自的行为。Proposer 负责生成问题,Solver 尝试解决问题,Judge 评估问题和解决方案,三者协同进化。在 Qwen2.5-3B-Instruct 上的实验表明,MAE 在多个基准测试上平均提升了 4.54%。结果表明,MAE 是一种可扩展、数据高效的方法,可以用最少的人工监督来增强 LLM 的通用推理能力。

🔬 方法详解

问题定义:现有方法依赖人工标注数据和特定环境反馈(如Python解释器或游戏引擎),难以扩展到通用领域,限制了LLM推理能力的提升。因此,需要一种无需人工干预、可扩展到多种任务的LLM自进化方法。

核心思路:借鉴自博弈论和进化算法的思想,构建一个多智能体协同进化的框架。通过让LLM扮演不同的角色(Proposer、Solver、Judge),并利用强化学习优化它们之间的交互,使LLM在解决问题的过程中不断学习和提升。

技术框架:MAE框架包含三个主要模块:Proposer、Solver和Judge。Proposer负责生成问题,Solver负责尝试解决问题,Judge负责评估问题和解决方案。这三个智能体由同一个LLM实例化,并通过强化学习算法进行训练。训练过程中,Proposer生成的问题的难度和多样性会影响Solver的学习效果,Solver的解题能力会影响Judge的评估准确性,Judge的评估结果又会反过来指导Proposer和Solver的优化方向。

关键创新:MAE的关键创新在于它将LLM的自进化问题建模成一个多智能体协同进化的过程。与传统的自博弈强化学习方法不同,MAE不需要一个外部环境提供反馈,而是通过内部智能体之间的交互来生成反馈信号。这种方法可以更容易地扩展到各种不同的任务和领域。

关键设计:具体的技术细节包括:如何设计Proposer生成问题的策略,如何设计Solver解决问题的策略,如何设计Judge评估问题和解决方案的策略,以及如何选择合适的强化学习算法来优化这些策略。论文中使用了Qwen2.5-3B-Instruct作为基础LLM,并针对不同的任务设计了相应的奖励函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Qwen2.5-3B-Instruct上的实验结果表明,MAE框架在多个基准测试上取得了显著的性能提升,平均提升幅度为4.54%。这表明MAE是一种有效的方法,可以用于提升LLM的通用推理能力,并且具有良好的可扩展性。

🎯 应用场景

MAE框架具有广泛的应用前景,可用于提升LLM在各种任务中的推理能力,例如数学问题求解、逻辑推理、知识问答等。此外,该框架还可以应用于教育领域,帮助学生更好地学习和掌握知识。通过构建一个智能化的学习环境,让学生在解决问题的过程中不断学习和提升。

📄 摘要(原文)

Reinforcement Learning (RL) has demonstrated significant potential in enhancing the reasoning capabilities of large language models (LLMs). However, the success of RL for LLMs heavily relies on human-curated datasets and verifiable rewards, which limit their scalability and generality. Recent Self-Play RL methods, inspired by the success of the paradigm in games and Go, aim to enhance LLM reasoning capabilities without human-annotated data. However, their methods primarily depend on a grounded environment for feedback (e.g., a Python interpreter or a game engine); extending them to general domains remains challenging. To address these challenges, we propose Multi-Agent Evolve (MAE), a framework that enables LLMs to self-evolve in solving diverse tasks, including mathematics, reasoning, and general knowledge Q&A. The core design of MAE is based on a triplet of interacting agents (Proposer, Solver, Judge) that are instantiated from a single LLM, and applies reinforcement learning to optimize their behaviors. The Proposer generates questions, the Solver attempts solutions, and the Judge evaluates both while co-evolving. Experiments on Qwen2.5-3B-Instruct demonstrate that MAE achieves an average improvement of 4.54% on multiple benchmarks. These results highlight MAE as a scalable, data-efficient method for enhancing the general reasoning abilities of LLMs with minimal reliance on human-curated supervision.