KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance

📄 arXiv: 2604.12627v1 📥 PDF

作者: Linhao Yu, Tianmeng Yang, Siyu Ding, Renren Jin, Naibin Gu, Xiangzhao Hao, Shuaiyi Nie, Deyi Xiong, Weichong Yin, Yu Sun, Hua Wu

分类: cs.AI

发布日期: 2026-04-14

🔗 代码/项目: GITHUB


💡 一句话要点

KnowRL:通过最小充分知识引导的强化学习提升LLM推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 推理能力 知识引导 奖励稀疏性 约束子集搜索 最小充分知识 提示学习

📋 核心要点

  1. 现有RL方法在提升LLM推理能力时面临奖励稀疏性问题,且基于提示的方法引入了冗余和额外的训练开销。
  2. KnowRL将提示设计视为最小充分指导问题,通过分解知识点和约束子集搜索构建紧凑的训练子集。
  3. KnowRL在多个推理基准测试中显著优于现有RL和提示方法,并在1.5B规模上取得了新的state-of-the-art。

📝 摘要(中文)

RLVR通过强化学习提升大型语言模型的推理能力,但其有效性常受限于难题上的奖励稀疏性。最近基于提示的强化学习方法通过注入部分解决方案或抽象模板来缓解稀疏性,但通常通过增加更多tokens来扩展指导,这会引入冗余、不一致和额外的训练开销。我们提出了KnowRL(知识引导的强化学习),一个将提示设计视为最小充分指导问题的强化学习训练框架。在强化学习训练期间,KnowRL将指导分解为原子知识点(KPs),并使用约束子集搜索(CSS)来构建紧凑的、交互感知的子集用于训练。我们进一步识别出一个剪枝交互悖论——移除一个KP可能有帮助,而移除多个这样的KP可能会造成损害——并明确地优化在这种依赖结构下的鲁棒子集管理。我们从OpenMath-Nemotron-1.5B训练KnowRL-Nemotron-1.5B。在1.5B规模的八个推理基准测试中,KnowRL-Nemotron-1.5B始终优于强大的强化学习和提示基线。在推理时没有KP提示的情况下,KnowRL-Nemotron-1.5B达到70.08的平均准确率,已经超过Nemotron-1.5B +9.63个点;使用选定的KP,性能提高到74.16,在这个规模上建立了一个新的state of the art。模型、整理的训练数据和代码可在https://github.com/Hasuer/KnowRL公开获取。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在复杂推理任务中,由于强化学习(RL)训练的奖励稀疏性以及现有基于提示(hint)的RL方法引入的冗余和训练开销问题。现有方法通常通过增加提示token的数量来提供指导,导致模型训练效率降低和性能瓶颈。

核心思路:KnowRL的核心思路是将提示设计视为一个最小充分指导问题。它将指导分解为原子知识点(KPs),并选择最少但足以指导模型学习的KP子集。通过这种方式,KnowRL旨在提供高效且有效的指导,避免冗余信息干扰模型的学习过程。

技术框架:KnowRL的整体框架包括以下几个主要阶段:1) 知识点分解:将复杂的推理过程分解为一系列原子知识点。2) 约束子集搜索(CSS):使用CSS算法从所有可能的KP子集中选择一个紧凑且交互感知的子集。3) 强化学习训练:使用选定的KP子集作为指导,对LLM进行强化学习训练。4) 鲁棒子集优化:针对剪枝交互悖论,优化子集选择,确保模型性能的稳定性。

关键创新:KnowRL的关键创新在于其最小充分知识指导的思想和约束子集搜索(CSS)算法。与现有方法不同,KnowRL不是简单地增加提示token的数量,而是专注于选择最相关的知识点,并显式地考虑知识点之间的交互作用。此外,KnowRL还解决了剪枝交互悖论,提高了模型的鲁棒性。

关键设计:KnowRL的关键设计包括:1) 原子知识点(KP)的定义:如何将推理过程分解为合适的KP是至关重要的。2) 约束子集搜索(CSS)算法:CSS算法需要高效地搜索KP子空间,并找到满足约束条件的最佳子集。3) 损失函数设计:损失函数需要能够反映模型在推理任务中的表现,并鼓励模型学习利用选定的KP进行推理。4) 剪枝交互悖论的优化策略:需要设计有效的策略来解决移除单个KP可能有效,但移除多个KP反而有害的问题。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

KnowRL-Nemotron-1.5B在八个推理基准测试中始终优于强大的RL和提示基线。在没有KP提示的情况下,KnowRL-Nemotron-1.5B达到了70.08的平均准确率,超过Nemotron-1.5B +9.63个点。使用选定的KP,性能进一步提高到74.16,在该规模上建立了新的state-of-the-art。这些结果表明KnowRL在提升LLM推理能力方面的显著优势。

🎯 应用场景

KnowRL具有广泛的应用前景,可用于提升各种LLM在复杂推理任务中的性能,例如数学问题求解、代码生成、逻辑推理等。该方法可以降低模型训练成本,提高模型推理效率,并为开发更智能、更可靠的AI系统提供支持。此外,KnowRL的知识点分解和子集选择思想也可以应用于其他领域的知识表示和学习。

📄 摘要(原文)

RLVR improves reasoning in large language models, but its effectiveness is often limited by severe reward sparsity on hard problems. Recent hint-based RL methods mitigate sparsity by injecting partial solutions or abstract templates, yet they typically scale guidance by adding more tokens, which introduce redundancy, inconsistency, and extra training overhead. We propose \textbf{KnowRL} (Knowledge-Guided Reinforcement Learning), an RL training framework that treats hint design as a minimal-sufficient guidance problem. During RL training, KnowRL decomposes guidance into atomic knowledge points (KPs) and uses Constrained Subset Search (CSS) to construct compact, interaction-aware subsets for training. We further identify a pruning interaction paradox -- removing one KP may help while removing multiple such KPs can hurt -- and explicitly optimize for robust subset curation under this dependency structure. We train KnowRL-Nemotron-1.5B from OpenMath-Nemotron-1.5B. Across eight reasoning benchmarks at the 1.5B scale, KnowRL-Nemotron-1.5B consistently outperforms strong RL and hinting baselines. Without KP hints at inference, KnowRL-Nemotron-1.5B reaches 70.08 average accuracy, already surpassing Nemotron-1.5B by +9.63 points; with selected KPs, performance improves to 74.16, establishing a new state of the art at this scale. The model, curated training data, and code are publicly available at https://github.com/Hasuer/KnowRL.