SHARP: Synthesizing High-quality Aligned Reasoning Problems for Large Reasoning Models Reinforcement Learning

作者: Xiong Jun Wu, Zhenduo Zhang, ZuJie Wen, Zhiqiang Zhang, Wang Ren, Lei Shi, Cai Chen, Deng Zhao, Qing Wang, Xudong Han, Chengfu Tang, Dingnan Jin, Qing Cui, Jun Zhou

分类: cs.AI

发布日期: 2025-05-20 (更新: 2025-05-25)

💡 一句话要点

SHARP：合成高质量对齐推理问题，用于强化学习训练大型推理模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型推理模型 强化学习 问题生成 自我对齐 可验证奖励 STEM教育 复杂推理 GPQA

📋 核心要点

现有方法难以生成高质量、多样且可验证的STEM推理问题，阻碍了大型推理模型通过强化学习进行有效训练。
SHARP通过自我对齐原则和三阶段框架，生成难度适中、逻辑一致、答案可验证的推理问题，并利用强化学习优化模型推理。
实验表明，SHARP显著提升了大型推理模型在复杂推理任务上的准确性，使其性能更接近专家水平。

📝 摘要（中文）

在STEM领域，使用强化学习训练大型推理模型（LRM）面临高质量、多样化和可验证问题集稀缺的挑战。现有的合成方法，如思维链提示，通常生成过于简单或无法检查的数据，限制了模型在复杂任务上的进步。为了解决这些挑战，我们提出了SHARP，一种统一的方法，用于合成高质量对齐推理问题，以进行具有可验证奖励的LRM强化学习（RLVR）。SHARP包含一套战略性的自我对齐原则——针对研究生和奥林匹克级别的难度、严格的逻辑一致性以及明确、可验证的答案——以及一个结构化的三阶段框架（对齐、实例化、推理），确保主题多样性和对问题生成的细粒度控制。我们利用最先进的LRM来推断和验证具有挑战性的STEM问题，然后采用强化学习循环，通过可验证的奖励信号来改进模型的推理。在GPQA等基准上的实验表明，SHARP增强的训练显著优于现有方法，显著提高了复杂推理的准确性，并推动LRM性能更接近专家水平。我们的贡献包括SHARP策略、框架设计、端到端实现以及对提升LRM推理能力的有效性的实验评估。

🔬 方法详解

问题定义：论文旨在解决大型推理模型（LRM）在STEM领域使用强化学习训练时，缺乏高质量、多样化和可验证的问题集的问题。现有方法，如思维链提示，生成的推理问题过于简单或难以验证，无法有效提升模型在复杂任务上的推理能力。

核心思路：论文的核心思路是设计一个问题生成框架，该框架能够生成难度适中（研究生和奥林匹克级别）、逻辑严谨、答案可验证的推理问题。通过强化学习，利用可验证的奖励信号来训练和优化LRM的推理能力。这样设计的目的是为了克服现有方法生成问题质量不高的问题，从而更有效地提升LRM的推理能力。

技术框架：SHARP框架包含三个主要阶段：1) 对齐（Alignment）：定义问题生成的原则，包括难度、逻辑一致性和可验证性。2) 实例化（Instantiation）：根据对齐原则，生成具体的问题主题和背景。3) 推理（Inference）：利用LRM生成问题的答案，并进行验证。然后，使用强化学习循环，根据答案的可验证性来调整LRM的推理策略。

关键创新：SHARP的关键创新在于其统一的框架和自我对齐原则，能够生成高质量、多样化和可验证的推理问题。与现有方法相比，SHARP不仅关注问题生成，还强调问题的可验证性，从而能够更有效地利用强化学习来训练LRM。此外，SHARP的三阶段框架提供了对问题生成的细粒度控制，确保了问题的主题多样性。

关键设计：SHARP的关键设计包括：1) 自我对齐原则：确保生成的问题难度适中、逻辑一致、答案可验证。2) 三阶段框架：提供对问题生成的结构化控制。3) 强化学习循环：利用可验证的奖励信号来优化LRM的推理策略。具体的参数设置、损失函数和网络结构等细节可能依赖于所使用的LRM和强化学习算法。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用SHARP增强训练的大型推理模型在GPQA等基准测试中显著优于现有方法，提高了复杂推理的准确性，并使模型性能更接近专家水平。具体性能数据和提升幅度在论文中进行了详细展示。

🎯 应用场景

SHARP方法可应用于各种需要复杂推理能力的领域，例如科学研究、工程设计、金融分析等。通过生成高质量的训练数据，可以提升大型推理模型在这些领域的应用效果，辅助专家进行决策，并加速相关领域的创新。

📄 摘要（原文）

Training large reasoning models (LRMs) with reinforcement learning in STEM domains is hindered by the scarcity of high-quality, diverse, and verifiable problem sets. Existing synthesis methods, such as Chain-of-Thought prompting, often generate oversimplified or uncheckable data, limiting model advancement on complex tasks. To address these challenges, we introduce SHARP, a unified approach to Synthesizing High-quality Aligned Reasoning Problems for LRMs reinforcement learning with verifiable rewards (RLVR). SHARP encompasses a strategic set of self-alignment principles -- targeting graduate and Olympiad-level difficulty, rigorous logical consistency, and unambiguous, verifiable answers -- and a structured three-phase framework (Alignment, Instantiation, Inference) that ensures thematic diversity and fine-grained control over problem generation. We implement SHARP by leveraging a state-of-the-art LRM to infer and verify challenging STEM questions, then employ a reinforcement learning loop to refine the model's reasoning through verifiable reward signals. Experiments on benchmarks such as GPQA demonstrate that SHARP-augmented training substantially outperforms existing methods, markedly improving complex reasoning accuracy and pushing LRM performance closer to expert-level proficiency. Our contributions include the SHARP strategy, framework design, end-to-end implementation, and experimental evaluation of its effectiveness in elevating LRM reasoning capabilities.

SHARP: Synthesizing High-quality Aligned Reasoning Problems for Large Reasoning Models Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理