SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM

📄 arXiv: 2504.14286v2 📥 PDF

作者: Xiaojiang Zhang, Jinghui Wang, Zifei Cheng, Wenhao Zhuang, Zheng Lin, Minglei Zhang, Shaojie Wang, Yinghan Cui, Chao Wang, Junyi Peng, Shimiao Jiang, Shiqi Kuang, Shouyu Yin, Chaohang Wen, Haotian Zhang, Bin Chen, Bing Yu

分类: cs.LG

发布日期: 2025-04-19 (更新: 2025-04-22)


💡 一句话要点

提出SRPO,通过两阶段训练和历史重采样提升LLM在数学推理和代码生成上的能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 策略优化 跨领域训练 历史重采样 数学推理 代码生成 Qwen2.5

📋 核心要点

  1. 现有方法在跨领域复制LLM推理能力时面临挑战,方法透明度有限是主要瓶颈。
  2. SRPO通过两阶段训练平衡数学推理和代码能力,并使用历史重采样解决无效样本问题。
  3. 实验表明,SRPO在AIME24和LiveCodeBench上超越DeepSeek-R1-Zero-32B,且训练效率更高。

📝 摘要(中文)

本文提出了一种名为两阶段历史重采样策略优化(SRPO)的方法,旨在提升大型语言模型(LLM)的推理能力。该方法在AIME24和LiveCodeBench基准测试中超越了DeepSeek-R1-Zero-32B的性能。SRPO使用与DeepSeek相同的基模型(即Qwen2.5-32B),但仅使用DeepSeek-R1-Zero-32B约1/10的训练步骤,展现出卓越的效率。SRPO基于Group Relative Policy Optimization (GRPO),并引入了两项关键的方法创新:(1) 一种两阶段跨领域训练范式,旨在平衡数学推理和编码能力的开发;(2) 历史重采样(HR)技术,用于解决无效样本的问题。全面的实验验证了该方法的有效性,并为扩展LLM在各种任务中的推理能力提供了有价值的见解。

🔬 方法详解

问题定义:论文旨在解决如何高效地提升LLM在数学推理和代码生成等不同领域的推理能力的问题。现有方法,例如DeepSeek-R1-Zero-32B,虽然取得了显著成果,但其方法细节不够透明,难以在其他领域复现,且训练成本较高。因此,需要一种更高效、更易于理解和复现的方法来提升LLM的推理能力。

核心思路:论文的核心思路是通过两阶段的跨领域训练,分别侧重于数学推理和代码生成能力的提升,从而平衡模型在这两个领域的表现。此外,通过历史重采样(HR)技术,解决训练过程中无效样本的问题,提高训练效率。这种设计旨在使模型在不同领域都能获得有效的学习,避免出现“短板效应”。

技术框架:SRPO的整体框架包含两个主要阶段:第一阶段侧重于数学推理能力的训练,第二阶段侧重于代码生成能力的训练。在每个阶段,都使用基于Group Relative Policy Optimization (GRPO) 的强化学习方法。此外,引入了历史重采样(HR)模块,用于筛选和重用历史训练数据中有效的样本,从而提高训练效率。整个流程可以概括为:数据收集 -> 策略训练(GRPO + HR)-> 模型评估 -> 迭代优化。

关键创新:SRPO的关键创新在于两点:一是两阶段跨领域训练范式,它允许模型在不同领域进行有针对性的学习,避免了单一训练目标可能导致的性能瓶颈。二是历史重采样(HR)技术,它能够有效地利用历史训练数据,避免了因无效样本过多而导致的训练效率低下。与现有方法相比,SRPO更加注重训练过程的效率和可控性,并试图通过更精细化的训练策略来提升模型性能。

关键设计:两阶段训练的具体实现方式是:首先,使用数学推理相关的数据集对模型进行训练,优化模型在数学问题上的表现;然后,使用代码生成相关的数据集对模型进行训练,优化模型在代码生成任务上的表现。历史重采样(HR)的具体实现方式是:在每个训练迭代中,根据样本的奖励值对历史样本进行筛选,选择奖励值较高的样本进行重用,从而提高训练效率。具体的参数设置和损失函数细节在论文中未明确给出,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SRPO在AIME24和LiveCodeBench基准测试中超越了DeepSeek-R1-Zero-32B的性能,证明了其有效性。更重要的是,SRPO仅使用DeepSeek-R1-Zero-32B约1/10的训练步骤,就达到了更高的性能水平,显著提升了训练效率。这表明SRPO在提升LLM推理能力的同时,也降低了训练成本。

🎯 应用场景

SRPO方法具有广泛的应用前景,可应用于智能客服、自动编程、科学计算等领域。通过提升LLM在数学推理和代码生成方面的能力,可以显著提高这些应用的智能化水平和效率。未来,该方法有望进一步扩展到其他领域,例如自然语言理解、图像识别等,从而推动人工智能技术的整体发展。

📄 摘要(原文)

Recent advances of reasoning models, exemplified by OpenAI's o1 and DeepSeek's R1, highlight the significant potential of Reinforcement Learning (RL) to enhance the reasoning capabilities of Large Language Models (LLMs). However, replicating these advancements across diverse domains remains challenging due to limited methodological transparency. In this work, we present two-Staged history-Resampling Policy Optimization (SRPO), which surpasses the performance of DeepSeek-R1-Zero-32B on the AIME24 and LiveCodeBench benchmarks. SRPO achieves this using the same base model as DeepSeek (i.e. Qwen2.5-32B), using only about 1/10 of the training steps required by DeepSeek-R1-Zero-32B, demonstrating superior efficiency. Building upon Group Relative Policy Optimization (GRPO), we introduce two key methodological innovations: (1) a two-stage cross-domain training paradigm designed to balance the development of mathematical reasoning and coding proficiency, and (2) History Resampling (HR), a technique to address ineffective samples. Our comprehensive experiments validate the effectiveness of our approach, offering valuable insights into scaling LLM reasoning capabilities across diverse tasks.