Dual-Phase LLM Reasoning: Self-Evolved Mathematical Frameworks

📄 arXiv: 2601.05616v1 📥 PDF

作者: ShaoZhen Liu, Xinting Huang, Houwen Peng, Xin Chen, Xinyang Song, Qi Li, Zhenan Sun

分类: cs.LG

发布日期: 2026-01-09


💡 一句话要点

提出双阶段LLM推理框架,通过自进化数学框架提升模型数学问题求解能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学问题求解 链式思维 监督微调 自进化框架

📋 核心要点

  1. 现有研究主要依赖强化学习框架,忽略了监督微调方法在提升LLM数学问题求解能力方面的潜力。
  2. 该论文提出双阶段训练框架,利用自生成CoT数据,结合验证、回溯等策略,提升模型自纠正能力。
  3. 实验结果表明,该方法在数学基准测试中取得了显著的性能提升,尤其是在竞赛级别问题上。

📝 摘要(中文)

本文提出了一种新的双阶段训练框架,旨在通过自生成的长链思维(CoT)数据来增强大型语言模型(LLM)的自纠正能力,从而提升其在数学问题求解等复杂推理任务中的表现。第一阶段采用多轮对话策略,引导模型生成包含验证、回溯、子目标分解和逆向推理的CoT数据,并通过预定义的规则过滤高质量样本,用于监督微调(SFT)。第二阶段采用难度感知的拒绝采样机制,动态优化数据分布,增强模型处理复杂问题的能力。实验结果表明,该方法生成的推理链长度可扩展至4倍以上,并保持了良好的可扩展性,证明了SFT能够有效激活模型的内在推理能力,并为复杂任务优化提供了一种资源高效的途径。在GSM8K和MATH500等数学基准测试中,微调后的模型性能均有所提升,尤其在AIME24等竞赛级别的问题上取得了显著的改进。代码将会开源。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在复杂数学问题求解中推理能力不足的问题。现有方法,特别是依赖强化学习(RL)的方法,通常计算资源消耗大,训练过程复杂。监督微调(SFT)虽然资源效率高,但如何有效利用SFT来激发LLM的内在推理能力仍然是一个挑战。

核心思路:论文的核心思路是通过自生成高质量的链式思维(CoT)数据,并利用这些数据进行监督微调,从而提升LLM的推理能力。关键在于如何生成既包含正确答案,又包含详细推理过程的CoT数据,并且能够覆盖不同难度的数学问题。

技术框架:该方法采用双阶段训练框架。第一阶段是CoT数据生成阶段,通过多轮对话策略,引导模型生成包含验证、回溯、子目标分解和逆向推理的CoT数据。预定义的规则用于过滤低质量的CoT样本。第二阶段是难度感知的SFT阶段,利用第一阶段生成的高质量CoT数据,采用难度感知的拒绝采样机制,动态调整数据分布,使模型能够更好地学习处理复杂问题。

关键创新:该方法最重要的创新点在于提出了一种自进化的数学框架,通过多轮对话和规则过滤,能够自动生成高质量、长链的CoT数据,并结合难度感知的采样策略,使得SFT能够有效地提升LLM的推理能力。与现有方法相比,该方法更加资源高效,并且能够更好地激活LLM的内在推理能力。

关键设计:在CoT数据生成阶段,设计了多轮对话策略,包括验证、回溯、子目标分解和逆向推理等。预定义的规则用于过滤低质量的CoT样本,例如,可以设定CoT的长度阈值,或者使用另一个模型来评估CoT的质量。在难度感知的SFT阶段,采用了拒绝采样机制,根据问题的难度动态调整采样概率。具体来说,可以根据模型在验证集上的表现来估计问题的难度,并对难度较高的样本赋予更高的采样概率。

📊 实验亮点

实验结果表明,该方法在GSM8K和MATH500等数学基准测试中取得了显著的性能提升。尤其是在AIME24等竞赛级别的问题上,微调后的模型取得了大幅改进,证明了该方法在处理复杂问题方面的有效性。此外,该方法生成的推理链长度可扩展至4倍以上,并保持了良好的可扩展性。

🎯 应用场景

该研究成果可应用于各种需要复杂推理能力的场景,例如智能客服、自动编程、科学研究等。通过提升LLM的推理能力,可以使其更好地理解用户意图,生成更准确、更可靠的答案,从而提高工作效率和决策质量。此外,该方法还可以推广到其他领域的复杂任务优化中,例如自然语言理解、图像识别等。

📄 摘要(原文)

In recent years, large language models (LLMs) have demonstrated significant potential in complex reasoning tasks like mathematical problem-solving. However, existing research predominantly relies on reinforcement learning (RL) frameworks while overlooking supervised fine-tuning (SFT) methods. This paper proposes a new two-stage training framework that enhances models' self-correction capabilities through self-generated long chain-of-thought (CoT) data. During the first stage, a multi-turn dialogue strategy guides the model to generate CoT data incorporating verification, backtracking, subgoal decomposition, and backward reasoning, with predefined rules filtering high-quality samples for supervised fine-tuning. The second stage employs a difficulty-aware rejection sampling mechanism to dynamically optimize data distribution, strengthening the model's ability to handle complex problems. The approach generates reasoning chains extended over 4 times longer while maintaining strong scalability, proving that SFT effectively activates models' intrinsic reasoning capabilities and provides a resource-efficient pathway for complex task optimization. Experimental results demonstrate performance improvements on mathematical benchmarks including GSM8K and MATH500, with the fine-tuned model achieving a substantial improvement on competition-level problems like AIME24. Code will be open-sourced.