Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math

📄 arXiv: 2504.21233v1 📥 PDF

作者: Haoran Xu, Baolin Peng, Hany Awadalla, Dongdong Chen, Yen-Chun Chen, Mei Gao, Young Jin Kim, Yunsheng Li, Liliang Ren, Yelong Shen, Shuohang Wang, Weijian Xu, Jianfeng Gao, Weizhu Chen

分类: cs.CL

发布日期: 2025-04-30


💡 一句话要点

Phi-4-Mini-Reasoning:探索小型语言模型在数学推理中的极限

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 小型语言模型 数学推理 思维链 蒸馏训练 强化学习 偏好优化 Phi-4-Mini

📋 核心要点

  1. 大型语言模型受益于思维链(CoT)推理,但小型语言模型(SLM)由于容量限制,难以有效利用CoT。
  2. 该论文提出了一种系统性的SLM训练方法,包括大规模中期训练、监督微调、Rollout DPO和强化学习,以提升推理能力。
  3. 实验表明,基于Phi-4-Mini的Phi-4-Mini-Reasoning模型在数学推理任务上超越了更大的模型,验证了该方法的有效性。

📝 摘要(中文)

思维链(CoT)通过训练大型语言模型(LLM)显式生成中间推理步骤,显著增强了其形式推理能力。虽然LLM很容易从这些技术中受益,但由于模型容量有限,改进小型语言模型(SLM)的推理仍然具有挑战性。Deepseek-R1的最新工作表明,从LLM生成的合成数据中进行蒸馏可以大大提高SLM的推理能力。然而,详细的建模方法尚未公开。在这项工作中,我们提出了一种针对SLM的系统训练方法,该方法包括四个步骤:(1)对各种提炼的长CoT数据进行大规模中期训练,(2)对高质量的长CoT数据进行监督微调,(3)利用精心策划的偏好数据集进行Rollout DPO,以及(4)使用可验证奖励进行强化学习(RL)。我们将我们的方法应用于Phi-4-Mini,一个紧凑的3.8B参数模型。由此产生的Phi-4-Mini-Reasoning模型在数学推理任务上超过了更大的推理模型,例如,在Math-500上超过DeepSeek-R1-Distill-Qwen-7B 3.2分,超过DeepSeek-R1-Distill-Llama-8B 7.7分。我们的结果验证了精心设计的训练方法,以及大规模高质量的CoT数据,可以有效地释放资源受限的小型模型中的强大推理能力。

🔬 方法详解

问题定义:论文旨在解决小型语言模型(SLM)在数学推理任务中表现不佳的问题。现有方法,如直接应用大型语言模型的思维链(CoT)训练策略,在SLM上效果有限,因为SLM的容量不足以有效学习和存储复杂的推理过程。Deepseek-R1虽然通过蒸馏提升了SLM的推理能力,但其具体实现细节未公开。

核心思路:论文的核心思路是通过一个精心设计的四阶段训练流程,利用大规模高质量的CoT数据,逐步提升SLM的推理能力。该流程旨在克服SLM的容量限制,使其能够有效地学习和应用复杂的推理策略。

技术框架:整体训练流程包括四个主要阶段: 1. 大规模中期训练:在多样化的蒸馏长CoT数据上进行预训练,增强模型的基础推理能力。 2. 监督微调:使用高质量的长CoT数据进行微调,进一步提升模型的推理精度。 3. Rollout DPO:利用精心策划的偏好数据集,通过Direct Preference Optimization (DPO) 优化模型的推理路径选择。 4. 强化学习:使用可验证的奖励信号进行强化学习,进一步提升模型的推理能力和鲁棒性。

关键创新:该方法最重要的创新在于其系统性的训练流程,该流程结合了大规模数据、监督学习、偏好优化和强化学习,能够有效地提升SLM的推理能力。此外,该方法强调了高质量CoT数据的重要性,并提出了一种有效的数据生成和筛选策略。

关键设计: * 数据规模:使用大规模的蒸馏CoT数据进行中期训练,确保模型能够学习到丰富的推理模式。 * 数据质量:使用高质量的CoT数据进行监督微调,提升模型的推理精度。 * 偏好数据集:精心策划偏好数据集,用于Rollout DPO,优化模型的推理路径选择。 * 奖励函数:设计可验证的奖励函数,用于强化学习,提升模型的推理能力和鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Phi-4-Mini-Reasoning模型在Math-500数据集上取得了显著的性能提升,超越了参数量更大的DeepSeek-R1-Distill-Qwen-7B 3.2个百分点,以及DeepSeek-R1-Distill-Llama-8B 7.7个百分点。这表明,通过精心设计的训练方法和高质量的CoT数据,小型语言模型也能达到甚至超越大型模型的推理能力。

🎯 应用场景

该研究成果可应用于资源受限场景下的智能助手、教育辅导系统、以及需要进行复杂推理的边缘计算设备。通过提升小型语言模型的推理能力,可以降低部署成本,提高响应速度,并促进人工智能技术在更广泛领域的应用。

📄 摘要(原文)

Chain-of-Thought (CoT) significantly enhances formal reasoning capabilities in Large Language Models (LLMs) by training them to explicitly generate intermediate reasoning steps. While LLMs readily benefit from such techniques, improving reasoning in Small Language Models (SLMs) remains challenging due to their limited model capacity. Recent work by Deepseek-R1 demonstrates that distillation from LLM-generated synthetic data can substantially improve the reasoning ability of SLM. However, the detailed modeling recipe is not disclosed. In this work, we present a systematic training recipe for SLMs that consists of four steps: (1) large-scale mid-training on diverse distilled long-CoT data, (2) supervised fine-tuning on high-quality long-CoT data, (3) Rollout DPO leveraging a carefully curated preference dataset, and (4) Reinforcement Learning (RL) with Verifiable Reward. We apply our method on Phi-4-Mini, a compact 3.8B-parameter model. The resulting Phi-4-Mini-Reasoning model exceeds, on math reasoning tasks, much larger reasoning models, e.g., outperforming DeepSeek-R1-Distill-Qwen-7B by 3.2 points and DeepSeek-R1-Distill-Llama-8B by 7.7 points on Math-500. Our results validate that a carefully designed training recipe, with large-scale high-quality CoT data, is effective to unlock strong reasoning capabilities even in resource-constrained small models.