SHARP: Synthesizing High-quality Aligned Reasoning Problems for Large Reasoning Models Reinforcement Learning
作者: Xiong Jun Wu, Zhenduo Zhang, ZuJie Wen, Zhiqiang Zhang, Wang Ren, Lei Shi, Cai Chen, Deng Zhao, Qing Wang, Xudong Han, Chengfu Tang, Dingnan Jin, Qing Cui, Jun Zhou
分类: cs.AI
发布日期: 2025-05-20 (更新: 2025-05-25)
💡 一句话要点
SHARP:合成高质量对齐推理问题,用于强化学习训练大型推理模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型推理模型 强化学习 问题生成 自我对齐 可验证奖励 STEM教育 复杂推理 GPQA
📋 核心要点
- 现有方法难以生成高质量、多样且可验证的STEM推理问题,阻碍了大型推理模型通过强化学习进行有效训练。
- SHARP通过自我对齐原则和三阶段框架,生成难度适中、逻辑一致、答案可验证的推理问题,并利用强化学习优化模型推理。
- 实验表明,SHARP显著提升了大型推理模型在复杂推理任务上的准确性,使其性能更接近专家水平。
📝 摘要(中文)
在STEM领域,使用强化学习训练大型推理模型(LRM)面临高质量、多样化和可验证问题集稀缺的挑战。现有的合成方法,如思维链提示,通常生成过于简单或无法检查的数据,限制了模型在复杂任务上的进步。为了解决这些挑战,我们提出了SHARP,一种统一的方法,用于合成高质量对齐推理问题,以进行具有可验证奖励的LRM强化学习(RLVR)。SHARP包含一套战略性的自我对齐原则——针对研究生和奥林匹克级别的难度、严格的逻辑一致性以及明确、可验证的答案——以及一个结构化的三阶段框架(对齐、实例化、推理),确保主题多样性和对问题生成的细粒度控制。我们利用最先进的LRM来推断和验证具有挑战性的STEM问题,然后采用强化学习循环,通过可验证的奖励信号来改进模型的推理。在GPQA等基准上的实验表明,SHARP增强的训练显著优于现有方法,显著提高了复杂推理的准确性,并推动LRM性能更接近专家水平。我们的贡献包括SHARP策略、框架设计、端到端实现以及对提升LRM推理能力的有效性的实验评估。
🔬 方法详解
问题定义:论文旨在解决大型推理模型(LRM)在STEM领域使用强化学习训练时,缺乏高质量、多样化和可验证的问题集的问题。现有方法,如思维链提示,生成的推理问题过于简单或难以验证,无法有效提升模型在复杂任务上的推理能力。
核心思路:论文的核心思路是设计一个问题生成框架,该框架能够生成难度适中(研究生和奥林匹克级别)、逻辑严谨、答案可验证的推理问题。通过强化学习,利用可验证的奖励信号来训练和优化LRM的推理能力。这样设计的目的是为了克服现有方法生成问题质量不高的问题,从而更有效地提升LRM的推理能力。
技术框架:SHARP框架包含三个主要阶段:1) 对齐(Alignment):定义问题生成的原则,包括难度、逻辑一致性和可验证性。2) 实例化(Instantiation):根据对齐原则,生成具体的问题主题和背景。3) 推理(Inference):利用LRM生成问题的答案,并进行验证。然后,使用强化学习循环,根据答案的可验证性来调整LRM的推理策略。
关键创新:SHARP的关键创新在于其统一的框架和自我对齐原则,能够生成高质量、多样化和可验证的推理问题。与现有方法相比,SHARP不仅关注问题生成,还强调问题的可验证性,从而能够更有效地利用强化学习来训练LRM。此外,SHARP的三阶段框架提供了对问题生成的细粒度控制,确保了问题的主题多样性。
关键设计:SHARP的关键设计包括:1) 自我对齐原则:确保生成的问题难度适中、逻辑一致、答案可验证。2) 三阶段框架:提供对问题生成的结构化控制。3) 强化学习循环:利用可验证的奖励信号来优化LRM的推理策略。具体的参数设置、损失函数和网络结构等细节可能依赖于所使用的LRM和强化学习算法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用SHARP增强训练的大型推理模型在GPQA等基准测试中显著优于现有方法,提高了复杂推理的准确性,并使模型性能更接近专家水平。具体性能数据和提升幅度在论文中进行了详细展示。
🎯 应用场景
SHARP方法可应用于各种需要复杂推理能力的领域,例如科学研究、工程设计、金融分析等。通过生成高质量的训练数据,可以提升大型推理模型在这些领域的应用效果,辅助专家进行决策,并加速相关领域的创新。
📄 摘要(原文)
Training large reasoning models (LRMs) with reinforcement learning in STEM domains is hindered by the scarcity of high-quality, diverse, and verifiable problem sets. Existing synthesis methods, such as Chain-of-Thought prompting, often generate oversimplified or uncheckable data, limiting model advancement on complex tasks. To address these challenges, we introduce SHARP, a unified approach to Synthesizing High-quality Aligned Reasoning Problems for LRMs reinforcement learning with verifiable rewards (RLVR). SHARP encompasses a strategic set of self-alignment principles -- targeting graduate and Olympiad-level difficulty, rigorous logical consistency, and unambiguous, verifiable answers -- and a structured three-phase framework (Alignment, Instantiation, Inference) that ensures thematic diversity and fine-grained control over problem generation. We implement SHARP by leveraging a state-of-the-art LRM to infer and verify challenging STEM questions, then employ a reinforcement learning loop to refine the model's reasoning through verifiable reward signals. Experiments on benchmarks such as GPQA demonstrate that SHARP-augmented training substantially outperforms existing methods, markedly improving complex reasoning accuracy and pushing LRM performance closer to expert-level proficiency. Our contributions include the SHARP strategy, framework design, end-to-end implementation, and experimental evaluation of its effectiveness in elevating LRM reasoning capabilities.