Dual-Phase LLM Reasoning: Self-Evolved Mathematical Frameworks

作者: ShaoZhen Liu, Xinting Huang, Houwen Peng, Xin Chen, Xinyang Song, Qi Li, Zhenan Sun

分类: cs.LG

发布日期: 2026-01-09

💡 一句话要点

提出双阶段LLM推理框架，通过自进化数学框架提升模型数学问题求解能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学问题求解 链式思维 监督微调 自进化框架

📋 核心要点

现有研究主要依赖强化学习框架，忽略了监督微调方法在提升LLM数学问题求解能力方面的潜力。
该论文提出双阶段训练框架，利用自生成CoT数据，结合验证、回溯等策略，提升模型自纠正能力。
实验结果表明，该方法在数学基准测试中取得了显著的性能提升，尤其是在竞赛级别问题上。

📝 摘要（中文）

本文提出了一种新的双阶段训练框架，旨在通过自生成的长链思维（CoT）数据来增强大型语言模型（LLM）的自纠正能力，从而提升其在数学问题求解等复杂推理任务中的表现。第一阶段采用多轮对话策略，引导模型生成包含验证、回溯、子目标分解和逆向推理的CoT数据，并通过预定义的规则过滤高质量样本，用于监督微调（SFT）。第二阶段采用难度感知的拒绝采样机制，动态优化数据分布，增强模型处理复杂问题的能力。实验结果表明，该方法生成的推理链长度可扩展至4倍以上，并保持了良好的可扩展性，证明了SFT能够有效激活模型的内在推理能力，并为复杂任务优化提供了一种资源高效的途径。在GSM8K和MATH500等数学基准测试中，微调后的模型性能均有所提升，尤其在AIME24等竞赛级别的问题上取得了显著的改进。代码将会开源。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在复杂数学问题求解中推理能力不足的问题。现有方法，特别是依赖强化学习（RL）的方法，通常计算资源消耗大，训练过程复杂。监督微调（SFT）虽然资源效率高，但如何有效利用SFT来激发LLM的内在推理能力仍然是一个挑战。

核心思路：论文的核心思路是通过自生成高质量的链式思维（CoT）数据，并利用这些数据进行监督微调，从而提升LLM的推理能力。关键在于如何生成既包含正确答案，又包含详细推理过程的CoT数据，并且能够覆盖不同难度的数学问题。

技术框架：该方法采用双阶段训练框架。第一阶段是CoT数据生成阶段，通过多轮对话策略，引导模型生成包含验证、回溯、子目标分解和逆向推理的CoT数据。预定义的规则用于过滤低质量的CoT样本。第二阶段是难度感知的SFT阶段，利用第一阶段生成的高质量CoT数据，采用难度感知的拒绝采样机制，动态调整数据分布，使模型能够更好地学习处理复杂问题。

关键创新：该方法最重要的创新点在于提出了一种自进化的数学框架，通过多轮对话和规则过滤，能够自动生成高质量、长链的CoT数据，并结合难度感知的采样策略，使得SFT能够有效地提升LLM的推理能力。与现有方法相比，该方法更加资源高效，并且能够更好地激活LLM的内在推理能力。

关键设计：在CoT数据生成阶段，设计了多轮对话策略，包括验证、回溯、子目标分解和逆向推理等。预定义的规则用于过滤低质量的CoT样本，例如，可以设定CoT的长度阈值，或者使用另一个模型来评估CoT的质量。在难度感知的SFT阶段，采用了拒绝采样机制，根据问题的难度动态调整采样概率。具体来说，可以根据模型在验证集上的表现来估计问题的难度，并对难度较高的样本赋予更高的采样概率。

📊 实验亮点

实验结果表明，该方法在GSM8K和MATH500等数学基准测试中取得了显著的性能提升。尤其是在AIME24等竞赛级别的问题上，微调后的模型取得了大幅改进，证明了该方法在处理复杂问题方面的有效性。此外，该方法生成的推理链长度可扩展至4倍以上，并保持了良好的可扩展性。

🎯 应用场景

该研究成果可应用于各种需要复杂推理能力的场景，例如智能客服、自动编程、科学研究等。通过提升LLM的推理能力，可以使其更好地理解用户意图，生成更准确、更可靠的答案，从而提高工作效率和决策质量。此外，该方法还可以推广到其他领域的复杂任务优化中，例如自然语言理解、图像识别等。

📄 摘要（原文）

In recent years, large language models (LLMs) have demonstrated significant potential in complex reasoning tasks like mathematical problem-solving. However, existing research predominantly relies on reinforcement learning (RL) frameworks while overlooking supervised fine-tuning (SFT) methods. This paper proposes a new two-stage training framework that enhances models' self-correction capabilities through self-generated long chain-of-thought (CoT) data. During the first stage, a multi-turn dialogue strategy guides the model to generate CoT data incorporating verification, backtracking, subgoal decomposition, and backward reasoning, with predefined rules filtering high-quality samples for supervised fine-tuning. The second stage employs a difficulty-aware rejection sampling mechanism to dynamically optimize data distribution, strengthening the model's ability to handle complex problems. The approach generates reasoning chains extended over 4 times longer while maintaining strong scalability, proving that SFT effectively activates models' intrinsic reasoning capabilities and provides a resource-efficient pathway for complex task optimization. Experimental results demonstrate performance improvements on mathematical benchmarks including GSM8K and MATH500, with the fine-tuned model achieving a substantial improvement on competition-level problems like AIME24. Code will be open-sourced.

Dual-Phase LLM Reasoning: Self-Evolved Mathematical Frameworks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理