Skywork Open Reasoner 1 Technical Report
作者: Jujie He, Jiacai Liu, Chris Yuhao Liu, Rui Yan, Chaojie Wang, Peng Cheng, Xiaoyu Zhang, Fuxiang Zhang, Jiacheng Xu, Wei Shen, Siyuan Li, Liang Zeng, Tianwen Wei, Cheng Cheng, Bo An, Yang Liu, Yahui Zhou
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-05-28 (更新: 2025-05-29)
💡 一句话要点
Skywork-OR1:通过强化学习提升长CoT模型推理能力,显著超越同规模模型。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 长链式思考 大语言模型 推理能力 熵坍塌
📋 核心要点
- 大型语言模型推理能力提升面临挑战,尤其是在长链式思考场景下,需要更有效的训练方法。
- Skywork-OR1通过强化学习方法,优化长CoT模型的推理过程,提升模型在复杂推理任务上的表现。
- 实验结果表明,Skywork-OR1在多个基准测试中显著提升了模型准确率,超越了同等规模的其他模型。
📝 摘要(中文)
本文介绍了Skywork-OR1,一种有效且可扩展的强化学习(RL)方法,用于提升长链式思考(CoT)模型的推理能力。该方法基于DeepSeek-R1-Distill模型系列,通过强化学习实现了显著的性能提升。对于32B模型,在AIME24、AIME25和LiveCodeBench上的平均准确率从57.8%提高到72.8%(+15.0%);对于7B模型,从43.6%提高到57.5%(+13.9%)。Skywork-OR1-32B模型在AIME24和AIME25基准测试中超越了DeepSeek-R1和Qwen3-32B,并在LiveCodeBench上取得了相当的结果。Skywork-OR1-7B和Skywork-OR1-Math-7B模型在同等规模的模型中表现出具有竞争力的推理能力。论文还对训练流程的核心组件进行了全面的消融研究,验证了它们的有效性。此外,深入研究了熵坍塌现象,识别了影响熵动态的关键因素,并证明了缓解过早的熵坍塌对于提高测试性能至关重要。为了支持社区研究,作者完全开源了模型权重、训练代码和训练数据集。
🔬 方法详解
问题定义:现有的大型语言模型在长链式思考(CoT)推理任务中,虽然可以通过增加模型规模来提升性能,但训练效率和资源消耗也随之增加。现有的监督学习方法难以充分利用CoT数据中的推理过程信息,导致模型在复杂推理任务中表现不佳。因此,如何更有效地利用CoT数据,提升模型在长链式推理任务中的性能,是一个亟待解决的问题。
核心思路:Skywork-OR1的核心思路是利用强化学习(RL)来优化模型的推理过程。通过将推理过程建模为一个马尔可夫决策过程(MDP),并设计合适的奖励函数,引导模型生成更准确、更合理的推理路径。这种方法能够充分利用CoT数据中的推理过程信息,从而提升模型的推理能力。
技术框架:Skywork-OR1的整体框架包括以下几个主要模块:1) 基于DeepSeek-R1-Distill的预训练模型作为基础模型;2) 使用CoT数据进行监督学习微调,以初始化模型的推理能力;3) 使用强化学习算法(具体算法未知)进行优化,通过奖励函数引导模型生成更优的推理路径;4) 熵正则化策略,缓解训练过程中的熵坍塌问题。
关键创新:Skywork-OR1的关键创新在于将强化学习应用于长链式思考模型的训练,并针对性地解决了训练过程中出现的熵坍塌问题。通过设计合适的奖励函数和熵正则化策略,能够有效地提升模型的推理能力,并避免模型过早陷入局部最优解。
关键设计:论文中提到,他们进行了全面的消融研究,验证了训练流程中各个核心组件的有效性。此外,他们还深入研究了熵坍塌现象,并识别了影响熵动态的关键因素。虽然论文没有详细描述奖励函数和熵正则化策略的具体设计,但强调了缓解过早的熵坍塌对于提高测试性能至关重要。具体的技术细节(如强化学习算法、奖励函数设计、熵正则化系数等)未知。
🖼️ 关键图片
📊 实验亮点
Skywork-OR1在AIME24、AIME25和LiveCodeBench等基准测试中取得了显著的性能提升。对于32B模型,平均准确率提升了15.0%,达到72.8%,超越了DeepSeek-R1和Qwen3-32B。对于7B模型,平均准确率提升了13.9%,达到57.5%,在同等规模的模型中表现出具有竞争力的推理能力。这些结果表明,Skywork-OR1是一种有效的方法,可以显著提升长链式思考模型的推理能力。
🎯 应用场景
Skywork-OR1的研究成果可应用于需要复杂推理能力的各种场景,例如:数学问题求解、代码生成、知识图谱推理、医疗诊断等。通过提升模型的推理能力,可以提高这些应用场景的自动化水平和准确性,从而带来更高的效率和价值。未来,该技术有望进一步拓展到更多需要长链式思考的领域。
📄 摘要(原文)
The success of DeepSeek-R1 underscores the significant role of reinforcement learning (RL) in enhancing the reasoning capabilities of large language models (LLMs). In this work, we present Skywork-OR1, an effective and scalable RL implementation for long Chain-of-Thought (CoT) models. Building on the DeepSeek-R1-Distill model series, our RL approach achieves notable performance gains, increasing average accuracy across AIME24, AIME25, and LiveCodeBench from 57.8% to 72.8% (+15.0%) for the 32B model and from 43.6% to 57.5% (+13.9%) for the 7B model. Our Skywork-OR1-32B model surpasses both DeepSeek-R1 and Qwen3-32B on the AIME24 and AIME25 benchmarks, while achieving comparable results on LiveCodeBench. The Skywork-OR1-7B and Skywork-OR1-Math-7B models demonstrate competitive reasoning capabilities among models of similar size. We perform comprehensive ablation studies on the core components of our training pipeline to validate their effectiveness. Additionally, we thoroughly investigate the phenomenon of entropy collapse, identify key factors affecting entropy dynamics, and demonstrate that mitigating premature entropy collapse is critical for improved test performance. To support community research, we fully open-source our model weights, training code, and training datasets.