When RL Suppresses Its Own Vocabulary: Recovering Reasoning Diversity in Puzzle-to-Math Transfer
作者: Mayug Maniparambil, Arjun Karuvally, Terrence Sejnowski, Fergal Reid
分类: cs.LG, cs.CL
发布日期: 2026-05-28
备注: Preprint
💡 一句话要点
通过强化学习和新颖性奖励,提升LLM在谜题到数学的跨领域推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 跨领域迁移 推理原语 新颖性奖励
📋 核心要点
- 现有方法在利用强化学习提升LLM推理能力时,对跨领域迁移的条件和原因缺乏深入研究。
- 论文提出一种基于推理原语的分析框架,并引入新颖性奖励机制,鼓励探索性推理,提升跨领域迁移能力。
- 实验表明,该方法在不使用数学数据的情况下,显著提升了LLM在hard-math问题上的性能,\texttt{pass@32}指标提升显著。
📝 摘要(中文)
本文研究了使用可验证奖励的强化学习(RLVR)在提升大型语言模型(LLM)推理能力方面的跨领域迁移能力,以及其内在原因。研究使用一个7B模型,其SFT和RL后训练阶段仅使用约束满足谜题,不包含数学问题。为了分析迁移的产生方式,引入了一个推理原语级别的框架,该框架结合了9类跨度分类器和motif提取,将思维链追踪分割成原语motif,并跟踪它们在训练阶段和领域中的演变。研究发现,谜题SFT诱导了一种推理原语词汇,在OlymMATH-Hard上产生了+7pp的\texttt{pass@32}增益。Vanilla GSPO随后将这些原语组合成更长的计算-验证链,进一步增加了+6pp。然而,这个RL阶段也抑制了探索性原语,如\textit{hypothesize}和\textit{backtrack}。为了解决这个问题,引入了一种新颖性奖励,使用参考模型下的困惑度作为信号,奖励多样化的正确rollout。这恢复了RL期间的恢复原语,并相对于vanilla GSPO进一步增加了+7pp的\texttt{pass@32}。最终,端到端方法将hard-math能力上限从OLMo3-7B-Instruct-SFT基础模型的16.0%提高到36.0%,而SFT或RL阶段没有添加任何数学问题。
🔬 方法详解
问题定义:现有方法在利用强化学习提升LLM推理能力时,对于如何实现跨领域知识迁移,以及迁移过程中的内在机制理解不足。尤其是在从相对简单的领域(如谜题)迁移到复杂领域(如数学)时,如何有效利用简单领域的知识,避免强化学习过程中的“灾难性遗忘”是一个挑战。
核心思路:论文的核心思路是将复杂的推理过程分解为更小的、可复用的“推理原语”,通过在简单领域(谜题)上训练模型,学习这些原语的组合方式。然后,在复杂领域(数学)上,通过强化学习进一步优化原语的组合策略,并引入新颖性奖励,鼓励模型探索不同的推理路径,避免过早收敛到局部最优解。
技术框架:整体框架包含以下几个阶段:1) 使用谜题数据进行监督微调(SFT),使模型具备基本的推理能力和推理原语词汇。2) 使用Vanilla GSPO进行强化学习,优化推理链的生成。3) 引入新颖性奖励,鼓励模型探索多样化的推理路径。4) 使用9类跨度分类器和motif提取技术,将思维链追踪分割成原语motif,并跟踪它们在训练阶段和领域中的演变,用于分析和理解模型的推理过程。
关键创新:论文的关键创新在于:1) 提出了一个推理原语级别的分析框架,能够细粒度地分析LLM的推理过程。2) 引入了新颖性奖励机制,通过参考模型下的困惑度作为信号,鼓励模型探索多样化的正确rollout,从而恢复了RL期间被抑制的探索性原语。
关键设计:新颖性奖励的设计是关键。论文使用参考模型(SFT模型)下的困惑度作为衡量新颖性的指标。具体来说,对于一个rollout,如果其困惑度较高,则说明它与参考模型的行为差异较大,更具有新颖性。因此,在强化学习的奖励函数中,加入一个与困惑度相关的bonus,鼓励模型生成更具新颖性的推理路径。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在OlymMATH-Hard数据集上取得了显著的性能提升。通过谜题SFT,\texttt{pass@32}指标提升了7个百分点;Vanilla GSPO进一步提升了6个百分点;引入新颖性奖励后,又提升了7个百分点。最终,端到端方法将hard-math能力上限从OLMo3-7B-Instruct-SFT基础模型的16.0%提高到36.0%,提升幅度显著。
🎯 应用场景
该研究成果可应用于提升大型语言模型在各种复杂推理任务中的性能,例如科学问题求解、代码生成、逻辑推理等。通过在简单领域进行预训练,然后在目标领域进行微调,可以有效降低训练成本,并提高模型的泛化能力。此外,该研究提出的推理原语分析框架,可以帮助研究人员更好地理解LLM的推理过程,为模型改进提供指导。
📄 摘要(原文)
Reinforcement learning using verifiable rewards (RLVR) improves LLM reasoning, but the conditions under which it transfers across domains -- and why it does so -- remain under-explored. We study cross-domain transfer in a 7B model whose SFT and RL post-training stages use only constraint-satisfaction puzzles, with no mathematics problems in the post-training data. To analyze how transfer emerges, we introduce a reasoning primitive-level framework that combines a 9-class span classifier with motif extraction, allowing us to segment chain-of-thought traces into primitive motifs and track their evolution across training stages and domains. We find that puzzle SFT induces a reasoning-primitive vocabulary, yielding a $+7$pp \texttt{pass@32} gain on OlymMATH-Hard. Vanilla GSPO then composes these primitives into longer compute-verify chains, adding a further $+6$pp. However, this RL stage also suppresses exploratory primitives such as \textit{hypothesize} and \textit{backtrack}. To address this, we introduce a novelty bonus that rewards diverse correct rollouts, using perplexity under the reference model as a signal. This restores recovery primitives during RL and adds a further $+7$pp \texttt{pass@32} relative to vanilla GSPO. Finally, the end-to-end recipe raises the hard-math capability ceiling from $16.0\%$ at the OLMo3-7B-Instruct-SFT base to $36.0\%$, without adding any mathematics problems during the SFT or RL stages.