Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond
作者: Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang
分类: cs.CL, cs.LG
发布日期: 2025-03-13 (更新: 2025-05-28)
备注: v4: ACL'25 industry track camera ready; v3: minor modifications; v2: better writing & format for later submission; all release at https://github.com/Qihoo360/Light-R1
🔗 代码/项目: GITHUB
💡 一句话要点
Light-R1:一种基于公共数据的长文本推理模型训练方案
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 长文本推理 课程学习 监督微调 直接偏好优化 强化学习 开源模型 数学推理
📋 核心要点
- 现有长文本推理模型训练依赖于专有数据,限制了研究的可复现性和成本效益。
- Light-R1采用课程学习,逐步增加训练数据的难度,并结合多阶段后训练,提升模型性能。
- 实验表明,Light-R1在数学推理任务上超越了同等规模的DeepSeek模型,并在跨领域泛化方面表现出色。
📝 摘要(中文)
本文介绍了Light-R1,这是一个开源套件,用于使用可复现且经济高效的方法训练长推理模型。鉴于DeepSeek-R1系列中使用的数据具有专有性,我们开发了一种替代方法,完全利用公共数据和模型。我们的课程学习训练逐步增加数据难度,并结合多阶段后训练。我们的Light-R1-32B模型,从Qwen2.5-32B-Instruct训练而来,在数学推理方面优于DeepSeek-R1-Distill-Qwen-32B。实验结果表明,当不同的数据集可用于不同的训练阶段时,这种课程方法变得更加有效:使用来自我们课程数据集的3,000个具有挑战性的示例对DeepSeek-R1-Distilled模型(由DeepSeek团队使用专有数据进行预调优)进行微调,产生了最先进的7B和14B模型,而32B模型Light-R1-32B-DS的性能与QwQ-32B和DeepSeek-R1相当。此外,我们通过在长推理模型上应用GRPO来扩展我们的工作。我们最终的Light-R1-14B-DS在数学方面实现了14B模型中的SOTA性能,AIME24和25的分数分别为74.0和60.2,超过了许多32B模型和DeepSeek-R1-Distill-Llama-70B。尽管专注于数学训练,Light-R1-14B-DS表现出强大的跨领域泛化能力。Light-R1代表了在使复杂的推理模型更易于访问和在实际应用中实施方面取得的重大进展。我们的模型、训练数据和代码已在https://github.com/Qihoo360/Light-R1上提供。
🔬 方法详解
问题定义:论文旨在解决长文本推理模型训练中对专有数据依赖的问题,这使得研究难以复现且成本高昂。现有方法难以在公共数据集上训练出具有竞争力的长文本推理模型。
核心思路:论文的核心思路是利用课程学习的思想,从简单到复杂逐步增加训练数据的难度,并结合多阶段后训练,从而在公共数据集上训练出高性能的长文本推理模型。这种方法旨在模拟人类学习的过程,先掌握基础知识,再逐步学习更复杂的概念。
技术框架:Light-R1的整体训练框架包括以下几个主要阶段:1) 基于Qwen2.5-32B-Instruct等开源模型进行初始化;2) 采用课程学习策略,逐步增加训练数据的难度,例如先使用简单的数学问题,再使用更复杂的奥数题;3) 进行多阶段后训练,包括监督微调(SFT)、直接偏好优化(DPO)和强化学习(RL),以进一步提升模型性能。此外,论文还探索了GRPO(Generalized Preference Optimization)在长文本推理模型上的应用。
关键创新:论文的关键创新在于提出了一种基于公共数据的、可复现的长文本推理模型训练方案。该方案结合了课程学习和多阶段后训练,能够在不依赖专有数据的情况下,训练出具有竞争力的模型。此外,论文还探索了GRPO在长文本推理模型上的应用,并取得了显著的效果。
关键设计:在课程学习方面,论文设计了多个难度级别的数学问题数据集,并按照难度递增的顺序进行训练。在多阶段后训练方面,论文采用了SFT、DPO和RL等多种技术,并针对不同的阶段选择了合适的训练数据和超参数。在GRPO方面,论文采用了特定的奖励函数和优化策略,以提升模型的推理能力。
📊 实验亮点
Light-R1-32B在数学推理方面优于DeepSeek-R1-Distill-Qwen-32B。Light-R1-14B-DS在AIME24和25上的分数分别为74.0和60.2,超过了许多32B模型和DeepSeek-R1-Distill-Llama-70B,在14B模型中实现了SOTA性能。即使专注于数学训练,Light-R1-14B-DS也展示了强大的跨领域泛化能力。
🎯 应用场景
Light-R1的潜在应用领域包括智能客服、教育辅导、金融分析、法律咨询等。该研究的实际价值在于降低了长文本推理模型的训练成本和门槛,使得更多研究者和开发者能够参与到相关研究中。未来,Light-R1有望推动长文本推理技术在各个领域的广泛应用。
📄 摘要(原文)
This paper introduces Light-R1, an open-source suite for training long reasoning models using reproducible and cost-effective methodology. Given the proprietary nature of data used in the DeepSeek-R1 series, we develop an alternative approach leveraging exclusively public data and models. Our curriculum training progressively increases data difficulty, combined with multi-staged post-training. Our Light-R1-32B model, trained from Qwen2.5-32B-Instruct, outperforms DeepSeek-R1-Distill-Qwen-32B in math reasoning. Experimental results show that this curriculum approach becomes more effective when distinct, diverse datasets are available for different training stages: fine-tuning DeepSeek-R1-Distilled models (pre-tuned by DeepSeek team on proprietary data) with 3,000 challenging examples from our curriculum dataset yielded state-of-the-art 7B and 14B models, while the 32B model, Light-R1-32B-DS performed comparably to QwQ-32B and DeepSeek-R1. Furthermore, we extend our work by applying GRPO on long reasoning models. Our final Light-R1-14B-DS achieves SOTA performance among 14B models in math, with AIME24 & 25 scores of 74.0 and 60.2 respectively, surpassing many 32B models and DeepSeek-R1-Distill-Llama-70B. Despite math-focused training, Light-R1-14B-DS demonstrates strong cross-domain generalization. Light-R1 represents a significant advancement in making sophisticated reasoning models more accessible and implementable in real-world applications. Our models, training data and code have been made available at https://github.com/Qihoo360/Light-R1.