Multi-Agent Evolve: LLM Self-Improve through Co-evolution

作者: Yixing Chen, Yiding Wang, Siqi Zhu, Haofei Yu, Tao Feng, Muhan Zhang, Mostofa Patwary, Jiaxuan You

分类: cs.AI

发布日期: 2025-10-27 (更新: 2025-10-30)

备注: 29 pages, 4 figures

💡 一句话要点

提出Multi-Agent Evolve框架，通过多智能体协同进化提升LLM推理能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 自进化 多智能体系统 协同进化

📋 核心要点

现有基于强化学习的LLM推理能力提升方法依赖于人工标注数据集和可验证奖励，限制了其可扩展性和通用性。
MAE框架通过构建Proposer、Solver和Judge三个智能体，利用强化学习优化它们之间的协同，实现LLM的自进化。
实验结果表明，MAE在多个基准测试上取得了显著的性能提升，验证了其在提升LLM通用推理能力方面的有效性。

📝 摘要（中文）

本文提出Multi-Agent Evolve (MAE) 框架，旨在提升大型语言模型 (LLM) 在数学、推理和通用知识问答等任务中的自进化能力。MAE 的核心设计基于三个相互作用的智能体（Proposer、Solver、Judge），它们均由单个 LLM 实例化，并通过强化学习优化各自的行为。Proposer 负责生成问题，Solver 尝试解决问题，Judge 评估问题和解决方案，三者协同进化。在 Qwen2.5-3B-Instruct 上的实验表明，MAE 在多个基准测试上平均提升了 4.54%。结果表明，MAE 是一种可扩展、数据高效的方法，可以用最少的人工监督来增强 LLM 的通用推理能力。

🔬 方法详解

问题定义：现有方法依赖人工标注数据和特定环境反馈（如Python解释器或游戏引擎），难以扩展到通用领域，限制了LLM推理能力的提升。因此，需要一种无需人工干预、可扩展到多种任务的LLM自进化方法。

核心思路：借鉴自博弈论和进化算法的思想，构建一个多智能体协同进化的框架。通过让LLM扮演不同的角色（Proposer、Solver、Judge），并利用强化学习优化它们之间的交互，使LLM在解决问题的过程中不断学习和提升。

技术框架：MAE框架包含三个主要模块：Proposer、Solver和Judge。Proposer负责生成问题，Solver负责尝试解决问题，Judge负责评估问题和解决方案。这三个智能体由同一个LLM实例化，并通过强化学习算法进行训练。训练过程中，Proposer生成的问题的难度和多样性会影响Solver的学习效果，Solver的解题能力会影响Judge的评估准确性，Judge的评估结果又会反过来指导Proposer和Solver的优化方向。

关键创新：MAE的关键创新在于它将LLM的自进化问题建模成一个多智能体协同进化的过程。与传统的自博弈强化学习方法不同，MAE不需要一个外部环境提供反馈，而是通过内部智能体之间的交互来生成反馈信号。这种方法可以更容易地扩展到各种不同的任务和领域。

关键设计：具体的技术细节包括：如何设计Proposer生成问题的策略，如何设计Solver解决问题的策略，如何设计Judge评估问题和解决方案的策略，以及如何选择合适的强化学习算法来优化这些策略。论文中使用了Qwen2.5-3B-Instruct作为基础LLM，并针对不同的任务设计了相应的奖励函数。

🖼️ 关键图片

📊 实验亮点

在Qwen2.5-3B-Instruct上的实验结果表明，MAE框架在多个基准测试上取得了显著的性能提升，平均提升幅度为4.54%。这表明MAE是一种有效的方法，可以用于提升LLM的通用推理能力，并且具有良好的可扩展性。

🎯 应用场景

MAE框架具有广泛的应用前景，可用于提升LLM在各种任务中的推理能力，例如数学问题求解、逻辑推理、知识问答等。此外，该框架还可以应用于教育领域，帮助学生更好地学习和掌握知识。通过构建一个智能化的学习环境，让学生在解决问题的过程中不断学习和提升。

📄 摘要（原文）

Reinforcement Learning (RL) has demonstrated significant potential in enhancing the reasoning capabilities of large language models (LLMs). However, the success of RL for LLMs heavily relies on human-curated datasets and verifiable rewards, which limit their scalability and generality. Recent Self-Play RL methods, inspired by the success of the paradigm in games and Go, aim to enhance LLM reasoning capabilities without human-annotated data. However, their methods primarily depend on a grounded environment for feedback (e.g., a Python interpreter or a game engine); extending them to general domains remains challenging. To address these challenges, we propose Multi-Agent Evolve (MAE), a framework that enables LLMs to self-evolve in solving diverse tasks, including mathematics, reasoning, and general knowledge Q&A. The core design of MAE is based on a triplet of interacting agents (Proposer, Solver, Judge) that are instantiated from a single LLM, and applies reinforcement learning to optimize their behaviors. The Proposer generates questions, the Solver attempts solutions, and the Judge evaluates both while co-evolving. Experiments on Qwen2.5-3B-Instruct demonstrate that MAE achieves an average improvement of 4.54% on multiple benchmarks. These results highlight MAE as a scalable, data-efficient method for enhancing the general reasoning abilities of LLMs with minimal reliance on human-curated supervision.

Multi-Agent Evolve: LLM Self-Improve through Co-evolution

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理