A Practical Two-Stage Recipe for Mathematical LLMs: Maximizing Accuracy with SFT and Efficiency with Reinforcement Learning

作者: Hiroshi Yoshihara, Taiki Yamaguchi, Yuichi Inoue

分类: cs.LG, cs.AI

发布日期: 2025-07-11

备注: Presented at ICML 2025 Workshop on The second AI for MATH

🔗 代码/项目: GITHUB

💡 一句话要点

提出数学LLM双阶段训练方法，通过SFT提升精度，GRPO优化效率

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 数学LLM 监督式微调 强化学习 在线推理 token效率 AIMO 双阶段训练

📋 核心要点

现有方法难以兼顾数学LLM的精度和效率，缺乏系统性的SFT与RL结合策略。
论文提出双阶段训练方法，先用SFT提升精度，再用GRPO优化token效率。
实验表明，延长SFT至10个epoch至关重要，GRPO主要优化解题长度，AIMO测试中表现优异。

📝 摘要（中文）

提升大型语言模型（LLM）的数学推理能力是推动人工智能发展的关键挑战。监督式微调（SFT）和强化学习（RL）是主要的训练范式，但如何系统地结合它们以最大化精度和效率仍未被充分探索。本文提出了一种实用有效的训练方法，该方法巧妙地将扩展的SFT与在线推理的RL（GRPO）相结合。我们认为这些方法扮演着互补而非竞争的角色：长时间的SFT阶段首先将模型的准确性推向极限，然后GRPO阶段在保持峰值性能的同时显著提高token效率。实验表明，将SFT扩展到多达10个epoch对于性能突破至关重要，并且GRPO在此框架中的主要作用是优化解题长度。我们的方法通过在具有挑战性的基准测试中取得的优异性能得到了严格验证，包括在严格无泄漏的AI数学奥林匹克（AIMO）中，在超过2200个团队中名列前茅。这项工作为社区提供了一个经过实战检验的蓝图，用于开发既非常准确又切实高效的先进数学推理器。为了确保完全的可重复性并促进未来的研究，我们将开源我们的整个框架，包括所有代码、模型检查点和训练配置。

🔬 方法详解

问题定义：论文旨在解决如何高效训练数学大型语言模型（LLM），使其在保证高准确率的同时，减少推理所需的token数量，从而降低计算成本。现有方法要么侧重于使用大量数据进行监督微调（SFT）以提高准确率，要么使用强化学习（RL）来优化效率，但缺乏一种系统性的方法来结合两者的优势。直接应用RL可能导致准确率下降，而过度依赖SFT则会增加推理成本。

核心思路：论文的核心思路是将SFT和RL视为互补而非竞争的关系。首先，通过长时间的SFT训练，将模型的准确率推至极限。然后，利用在线推理的强化学习（GRPO）在保持高准确率的前提下，显著提高token效率。这种两阶段方法旨在充分利用SFT的数据效率和RL的优化能力。

技术框架：整体框架包含两个主要阶段：1) 扩展的监督微调（Extended SFT）：使用数学问题和对应的解答数据对LLM进行微调，目标是最大化模型的解题准确率。论文强调需要进行较长时间的SFT训练（例如10个epoch）才能达到最佳性能。2) 基于在线推理的强化学习（GRPO）：在SFT的基础上，使用GRPO算法进一步优化模型的推理过程，主要目标是减少解题所需的token数量。GRPO通过与环境交互，根据解题的奖励信号来调整模型的策略。

关键创新：论文的关键创新在于提出了一个实用有效的双阶段训练流程，明确了SFT和GRPO在数学LLM训练中的不同作用。论文强调SFT是提升准确率的关键，而GRPO则主要负责优化效率。此外，论文还发现延长SFT的训练时间对于性能突破至关重要。

关键设计：在SFT阶段，论文使用了标准的交叉熵损失函数。在GRPO阶段，使用了基于在线推理的强化学习算法，具体细节未知。论文强调了SFT的训练epoch数（例如10个epoch）是一个重要的超参数。具体的网络结构和参数设置未在摘要中详细说明，需要参考论文全文。

🖼️ 关键图片

📊 实验亮点

实验结果表明，将SFT扩展到10个epoch对于性能突破至关重要。GRPO的主要作用是优化解题长度，在保持高准确率的同时显著提高了token效率。该方法在AI数学奥林匹克（AIMO）中取得了优异的成绩，在超过2200个团队中名列前茅，验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于各种需要数学推理能力的AI系统，例如自动解题机器人、智能教育平台、金融分析工具等。通过提高数学LLM的精度和效率，可以降低AI系统的开发和部署成本，并提升其在实际应用中的性能和可靠性。该方法为开发更强大的通用人工智能奠定了基础。

📄 摘要（原文）

Enhancing the mathematical reasoning of Large Language Models (LLMs) is a pivotal challenge in advancing AI capabilities. While Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) are the dominant training paradigms, a systematic methodology for combining them to maximize both accuracy and efficiency remains largely unexplored. This paper introduces a practical and effective training recipe that strategically integrates extended SFT with RL from online inference (GRPO). We posit that these methods play complementary, not competing, roles: a prolonged SFT phase first pushes the model's accuracy to its limits, after which a GRPO phase dramatically improves token efficiency while preserving this peak performance. Our experiments reveal that extending SFT for as many as 10 epochs is crucial for performance breakthroughs, and that the primary role of GRPO in this framework is to optimize solution length. The efficacy of our recipe is rigorously validated through top-tier performance on challenging benchmarks, including a high rank among over 2,200 teams in the strictly leak-free AI Mathematical Olympiad (AIMO). This work provides the community with a battle-tested blueprint for developing state-of-the-art mathematical reasoners that are both exceptionally accurate and practically efficient. To ensure full reproducibility and empower future research, we will open-source our entire framework, including all code, model checkpoints, and training configurations at https://github.com/analokmaus/kaggle-aimo2-fast-math-r1.

A Practical Two-Stage Recipe for Mathematical LLMs: Maximizing Accuracy with SFT and Efficiency with Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理