SAGE: Multi-Agent Self-Evolution for LLM Reasoning

📄 arXiv: 2603.15255v1 📥 PDF

作者: Yulin Peng, Xinxin Zhu, Chenxing Wei, Nianbo Zeng, Leilei Wang, Ying Tiffany He, F. Richard Yu

分类: cs.AI, cs.MA

发布日期: 2026-03-16


💡 一句话要点

SAGE:面向LLM推理的多智能体自进化框架,提升数学和代码生成能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理 自进化 多智能体 强化学习 代码生成 数学问题解决

📋 核心要点

  1. 现有LLM推理方法依赖大量人工标注数据,自博弈方法缺乏显式规划和质量控制,限制了长程推理的稳定性。
  2. SAGE框架通过挑战者、规划者、求解者和评论者四个智能体的协同进化,实现LLM推理能力的自提升。
  3. 实验表明,SAGE在数学和代码生成任务上显著提升了LLM的性能,例如在LiveCodeBench和OlympiadBench上分别提升了8.9%和10.7%。

📝 摘要(中文)

本文提出SAGE(Self-evolving Agents for Generalized reasoning Evolution),一个闭环框架,其中挑战者、规划者、求解者和评论者四个智能体从共享的LLM骨干网络共同进化,仅使用少量种子数据集。挑战者持续生成难度递增的任务;规划者将每个任务转化为结构化的多步计划;求解者遵循计划生成答案,答案的正确性由外部验证器确定。评论者对生成的问题和计划进行评分和过滤,以防止课程漂移并保持训练信号质量,从而实现稳定的自训练。在数学和代码生成基准测试中,SAGE在不同模型规模上均实现了持续的提升,在LiveCodeBench上将Qwen-2.5-7B模型提升了8.9%,在OlympiadBench上提升了10.7%。

🔬 方法详解

问题定义:现有的大语言模型推理方法,尤其是基于强化学习的方法,通常需要大量的人工标注数据来训练奖励模型。而自博弈方法虽然减少了对人工标注的依赖,但往往缺乏明确的规划和严格的质量控制,导致在长程多步推理任务中表现不稳定,容易出现训练漂移现象。

核心思路:SAGE的核心思路是构建一个闭环的自进化系统,通过多个智能体之间的相互作用和反馈,实现大语言模型推理能力的持续提升。该系统模拟了人类学习和进化的过程,通过不断生成新的任务、制定解决方案、评估结果并进行改进,从而使模型能够逐步掌握更复杂的推理技能。

技术框架:SAGE框架包含四个主要智能体:挑战者(Challenger)、规划者(Planner)、求解者(Solver)和评论者(Critic)。挑战者负责生成难度逐渐增加的任务;规划者将任务分解为结构化的多步计划;求解者根据计划生成答案;评论者评估问题和计划的质量,并提供反馈。整个过程形成一个闭环,智能体之间相互协作,共同进化。外部验证器用于评估求解者生成的答案的正确性。

关键创新:SAGE的关键创新在于其多智能体协同进化的框架,以及评论者对问题和计划的质量控制机制。通过挑战者不断生成新的、更具挑战性的任务,规划者提供结构化的解决方案,求解者执行计划,评论者进行质量评估和反馈,SAGE能够有效地避免训练漂移,并保持训练信号的质量,从而实现稳定的自训练。

关键设计:SAGE框架的关键设计包括:1) 挑战者生成任务的难度控制策略,确保任务难度逐渐增加;2) 规划者生成计划的结构化表示方法,例如使用思维链(Chain-of-Thought)等技术;3) 评论者使用的评分和过滤算法,用于评估问题和计划的质量,并防止低质量的样本影响训练;4) 损失函数的设计,用于优化各个智能体的策略,例如可以使用强化学习中的策略梯度方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SAGE在数学和代码生成基准测试中取得了显著的成果。在LiveCodeBench上,SAGE将Qwen-2.5-7B模型的性能提升了8.9%,在OlympiadBench上提升了10.7%。这些结果表明,SAGE框架能够有效地提升大语言模型的推理能力,并且在不同模型规模上都具有良好的泛化性。

🎯 应用场景

SAGE框架具有广泛的应用前景,可用于提升大语言模型在数学、代码生成、逻辑推理等领域的性能。该方法可以应用于教育、科研、软件开发等领域,例如,可以用于开发更智能的辅导系统、自动化代码生成工具等。此外,SAGE的自进化思想也可以推广到其他人工智能任务中,例如机器人控制、游戏AI等。

📄 摘要(原文)

Reinforcement learning with verifiable rewards improves reasoning in large language models (LLMs), but many methods still rely on large human-labeled datasets. While self-play reduces this dependency, it often lacks explicit planning and strong quality control, limiting stability in long-horizon multi-step reasoning. We present SAGE (Self-evolving Agents for Generalized reasoning Evolution), a closed-loop framework where four agents: Challenger, Planner, Solver, and Critic, co-evolve from a shared LLM backbone using only a small seed set. The Challenger continuously generates increasingly difficult tasks; the Planner converts each task into a structured multi-step plan; and the Solver follows the plan to produce an answer, whose correctness is determined by external verifiers. The Critic scores and filters both generated questions and plans to prevent curriculum drift and maintain training signal quality, enabling stable self-training. Across mathematics and code-generation benchmarks, SAGE delivers consistent gains across model scales, improving the Qwen-2.5-7B model by 8.9% on LiveCodeBench and 10.7% on OlympiadBench.