Socratic-Zero : Bootstrapping Reasoning via Data-Free Agent Co-evolution
作者: Shaobo Wang, Zhengbo Jiao, Zifan Zhang, Yilang Peng, Xu Ze, Boyu Yang, Wei Wang, Hu Wei, Linfeng Zhang
分类: cs.CL
发布日期: 2025-09-29
备注: 23 pages, 3 figures
💡 一句话要点
Socratic-Zero:通过无数据Agent协同进化引导LLM推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 数据合成 Agent协同进化 数学推理 无数据学习
📋 核心要点
- 现有LLM推理依赖大量人工标注数据,成本高昂且难以扩展,数据合成方法质量不稳定,无法适应模型能力。
- Socratic-Zero通过教师、解题者和生成器三个Agent的协同进化,从少量种子示例中自主生成高质量训练数据。
- 实验表明,Socratic-Zero在多个数学推理基准测试上显著优于现有数据合成方法,甚至超越了部分商业LLM。
📝 摘要(中文)
大型语言模型(LLMs)在推理任务上的突破依赖于大规模、高质量的数据集,这些数据集通常由人工标注,难以扩展。数据合成或蒸馏提供了一种有希望的替代方案,但现有方法在数据质量不一致以及无法动态适应模型不断发展的能力方面存在困难,导致次优的训练信号。为了解决这些限制,我们引入了Socratic-Zero,这是一个完全自主的框架,通过三个Agent(教师、解题者和生成器)的协同进化,从最少的种子示例中生成高质量的训练数据。解题者通过学习成功和失败轨迹上的偏好反馈来不断改进其推理能力;教师根据解题者的弱点自适应地设计越来越具有挑战性的问题;生成器提炼教师的问题设计策略,以实现可扩展、高保真的课程生成。这个闭环系统产生了一个自我改进的课程,不需要预先存在的任务或标签。令人惊讶的是,从仅100个种子问题开始,我们的Socratic-Solver-8B在七个数学推理基准测试(AMC23、AIME24-25、Olympiad、MATH-500、Minerva和GSM8K)上,比之前的数据合成方法平均提高了+20.2个百分点,并且在Qwen3和GLM4系列模型上都获得了持续的收益。更令人惊讶的是,来自Socratic-Generator-32B的合成数据使学生LLM在这些基准测试上实现了优于其他最先进(SOTA)商业LLM的性能,包括Qwen3-235B-A22B、DeepSeek-V3.1-671B、GPT-5、Gemini-2.5-Pro、Grok-4和Claude-4.1-Opus。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在数学推理任务中对大规模高质量标注数据的依赖问题。现有数据合成方法存在数据质量不一致、无法动态适应模型能力等痛点,导致训练效果不佳。
核心思路:论文的核心思路是通过构建一个自主的Agent协同进化框架,自动生成高质量的训练数据。该框架包含教师、解题者和生成器三个Agent,它们相互协作,共同提升模型的推理能力。教师负责根据解题者的弱点生成具有挑战性的问题,解题者负责解决问题并根据反馈改进推理能力,生成器负责学习教师的问题设计策略,从而实现可扩展的课程生成。
技术框架:Socratic-Zero框架是一个闭环系统,包含以下三个主要模块:1) 解题者(Solver):负责解决数学推理问题,并根据成功和失败的轨迹接收偏好反馈,从而不断改进其推理能力。2) 教师(Teacher):根据解题者的弱点,自适应地生成越来越具有挑战性的问题,以促进解题者的学习。3) 生成器(Generator):提炼教师的问题设计策略,生成大规模、高质量的训练数据,用于训练解题者。这三个模块相互协作,形成一个自我改进的循环。
关键创新:Socratic-Zero的关键创新在于其完全自主的Agent协同进化框架,该框架无需人工标注数据,即可生成高质量的训练数据。与现有数据合成方法相比,Socratic-Zero能够动态适应模型的能力,并生成更具挑战性的问题,从而更有效地提升模型的推理能力。此外,通过生成器对教师策略的提炼,实现了可扩展的课程生成。
关键设计:论文中涉及的关键设计包括:1) 偏好反馈机制:解题者通过接收成功和失败轨迹上的偏好反馈来学习,这种反馈机制能够有效地指导解题者改进其推理策略。2) 教师的问题生成策略:教师根据解题者的弱点生成问题,确保问题具有挑战性,能够促进解题者的学习。3) 生成器的策略提炼:生成器通过学习教师的问题设计策略,生成大规模、高质量的训练数据,从而实现可扩展的课程生成。具体的参数设置、损失函数、网络结构等技术细节在论文中有详细描述,此处不再赘述。
🖼️ 关键图片
📊 实验亮点
Socratic-Zero在七个数学推理基准测试上取得了显著的性能提升。例如,Socratic-Solver-8B比之前的数据合成方法平均提高了+20.2个百分点。更令人惊讶的是,来自Socratic-Generator-32B的合成数据使学生LLM在这些基准测试上实现了优于其他最先进(SOTA)商业LLM的性能,包括Qwen3-235B-A22B、DeepSeek-V3.1-671B、GPT-5、Gemini-2.5-Pro、Grok-4和Claude-4.1-Opus。
🎯 应用场景
Socratic-Zero具有广泛的应用前景,可用于提升各种LLM在数学推理、逻辑推理等任务上的能力。该方法无需人工标注数据,降低了训练成本,并可应用于教育、科研等领域,例如自动生成个性化学习材料,辅助科学研究等。未来,该方法有望扩展到其他领域,例如代码生成、自然语言理解等。
📄 摘要(原文)
Recent breakthroughs in large language models (LLMs) on reasoning tasks rely heavily on massive, high-quality datasets-typically human-annotated and thus difficult to scale. While data synthesis or distillation offers a promising alternative, existing methods struggle with inconsistent data quality and an inability to dynamically adapt to the evolving capabilities of the model, leading to suboptimal training signals. To address these limitations, we introduce Socratic-Zero, a fully autonomous framework that generates high-quality training data from minimal seed examples through the co-evolution of three agents: the Teacher, the Solver, and the Generator. The Solver continuously refines its reasoning by learning from preference feedback on both successful and failed trajectories; the Teacher adaptively crafts increasingly challenging questions based on the Solver's weaknesses; and the Generator distills the Teacher's question-design strategy to enable scalable, high-fidelity curriculum generation. This closed-loop system produces a self-improving curriculum-requiring no pre-existing tasks or labels. Remarkably, starting from only 100 seed questions, our Socratic-Solver-8B achieves an average gain of +20.2 percentage points over prior data synthesis methods across seven mathematical reasoning benchmarks (AMC23, AIME24-25, Olympiad, MATH-500, Minerva, and GSM8K), with consistent gains on both Qwen3 and GLM4 series models. Even more surprisingly, synthetic data from Socratic-Generator-32B enables student LLMs to achieve superior performance compared to other state-of-the-art (SOTA) commercial LLMs on these benchmarks, including Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4, and Claude-4.1-Opus.