Beyond Reasoning: Reinforcement Learning Unlocks Parametric Knowledge in LLMs
作者: Wanli Yang, Hongyu Zang, Junwei Zhang, Wenjie Shi, Du Su, Jingang Wang, Xueqi Cheng, Fei Sun
分类: cs.CL
发布日期: 2026-05-08
💡 一句话要点
利用强化学习解锁大语言模型中的参数化知识,而非仅限于推理任务
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 参数化知识 大语言模型 事实问答 概率分布重塑 知识召回
📋 核心要点
- 现有研究多关注RL在复杂推理任务中的应用,而RL能否有效提升模型对参数化知识的直接召回能力尚不明确。
- 本文提出在受控的闭卷问答环境下,仅利用二元奖励信号进行RL训练,旨在通过强化学习机制挖掘模型内部潜藏的知识。
- 实验表明,该方法在多个基准测试中实现了约27%的性能提升,证明了RL在优化知识召回方面的有效性与潜力。
📝 摘要(中文)
强化学习(RL)在提升大语言模型(LLM)推理能力方面已取得显著成效,但其能否直接增强模型对参数化知识的召回能力仍存争议。本文在受控的零样本、单跳、闭卷问答设置下,通过仅使用二元正确性奖励进行训练,并严格执行事实层面的训练-测试去重,排除了推理或记忆的影响。研究发现,RL在三个模型系列及多个事实问答基准上平均实现了约27%的相对增益,优于现有的训练和推理时基线。机制分析表明,RL主要通过重新分配现有知识的概率分布来提升性能,而非获取新事实。数据归因研究进一步揭示,最难的样本(即在128个预训练样本中从未出现过答案的样本)贡献了约83%的增益。这些发现将RL的角色从推理扩展至解锁模型内部潜藏的参数化知识。
🔬 方法详解
问题定义:论文旨在解决大语言模型在闭卷问答中对参数化知识召回不稳定的问题。现有方法往往依赖于推理链(CoT)或外部检索,而本文关注模型在不依赖推理过程的情况下,如何通过强化学习直接提升对已有知识的提取能力。
核心思路:核心思路在于将RL视为一种“知识解锁”工具。研究假设模型内部已经具备了相关知识,但这些知识处于低概率分布的“长尾”区域。通过RL训练,模型能够将这些正确答案的概率质量从长尾提升至贪婪解码的可靠范围内。
技术框架:研究采用受控的零样本、单跳问答设置。训练过程仅依赖二元正确性奖励(Binary Correctness Reward),即根据答案是否匹配进行奖励反馈。通过严格的事实级去重,确保模型提升的是知识召回能力而非简单的模式记忆。
关键创新:最重要的创新在于揭示了RL的机制:它并非在“学习”新知识,而是在“重塑”概率分布。此外,研究发现最难的样本(即在预训练采样中极少出现的答案)对模型性能提升贡献最大,这挑战了传统认为RL仅适用于简单任务的认知。
关键设计:实验设计中采用了严格的去重策略,确保测试集中的事实在训练集中未以相同形式出现。训练过程中,模型通过探索稀有的正确输出路径,并利用奖励信号强化这些路径,从而实现对长尾知识的有效利用。
🖼️ 关键图片
📊 实验亮点
实验在三个模型系列及多个事实问答基准上验证了该方法的有效性,平均相对增益达到约27%,显著优于传统的监督微调及推理时提示策略。数据归因分析显示,仅占训练数据18%的“最难样本”贡献了83%的性能增益,证明了RL在挖掘模型长尾知识方面的独特优势。
🎯 应用场景
该研究成果可广泛应用于需要高准确度事实问答的领域,如医疗诊断辅助、法律咨询系统及企业知识库问答。通过RL解锁模型内部潜藏的知识,可以减少对昂贵检索增强生成(RAG)系统的依赖,提升轻量化模型在特定领域的事实准确性,并为模型微调提供更高效的知识优化路径。
📄 摘要(原文)
Reinforcement learning (RL) has achieved remarkable success in LLM reasoning, but whether it can also improve direct recall of parametric knowledge remains an open question. We study this question in a controlled zero-shot, one-hop, closed-book QA setting with no chain-of-thought, training only on binary correctness rewards and applying fact-level train-test deduplication to ensure gains reflect improved recall rather than reasoning or memorization. Across three model families and multiple factual QA benchmarks, RL yields ~27% average relative gains, surpassing both training- and inference-time baselines alike. Mechanistically, RL primarily redistributes probability mass over existing knowledge rather than acquiring new facts, moving correct answers from the low-probability tail into reliable greedy generations. Our data-attribution study reveals that the hardest examples are the most informative: those whose answers never appear in 128 pre-RL samples (only ~18% of training data) drive ~83% of the gain, since rare correct rollouts still emerge during training and get reinforced. Together, these findings broaden the role of RL beyond reasoning, repositioning it as a tool for unlocking rather than acquiring latent parametric knowledge.