Reinforcement Learning vs. Distillation: Understanding Accuracy and Capability in LLM Reasoning
作者: Minwu Kim, Anubhav Shrestha, Safal Shrestha, Aadim Nepal, Keith Ross
分类: cs.AI, cs.CL
发布日期: 2025-05-20 (更新: 2025-10-31)
备注: 25 pages
💡 一句话要点
对比强化学习与蒸馏,揭示LLM推理能力提升的差异化机制
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 蒸馏学习 LLM推理 能力提升 准确率 知识引入 模型训练 可验证奖励
📋 核心要点
- 现有研究表明,RLVR虽然能提升LLM准确率,但难以提高推理能力,蒸馏则两者兼顾,其内在原因尚不明确。
- 本文通过实验分析,揭示RLVR侧重于简单问题,牺牲了难题的准确率,从而限制了推理能力的提升。
- 研究发现,蒸馏只有在引入新知识时才能提升LLM的推理能力,单纯的推理模式蒸馏效果有限。
📝 摘要(中文)
最近的研究表明,使用可验证奖励的强化学习(RLVR)可以提高LLM在推理任务中的整体准确率(pass@1),但通常无法提高能力(pass@k),而蒸馏可以同时提高两者。本文研究了这些现象背后的机制。首先,我们证明了RLVR难以提高能力,因为它侧重于提高较简单问题的准确性,而牺牲了最困难问题的准确性。其次,我们表明,RLVR不仅仅提高了简单问题的成功概率,而且在我们的模型设置中,产生了原始输出分布中不存在的高质量响应。此外,这些响应既没有明显更长,也没有更多与反思相关的关键词,这突显了对更可靠的响应质量指标的需求。第三,从将教师响应蒸馏到同分布问题的实验中,我们发现能力并不总是随着蒸馏而提高。我们推测,只有当引入新知识时,能力才会提高,而蒸馏推理模式只会提高准确性,而不会提高能力,从而牺牲了最困难问题的性能,类似于RLVR。总之,这些发现更清楚地解释了RLVR和蒸馏如何塑造LLM中的推理行为。
🔬 方法详解
问题定义:现有方法在提升LLM推理能力时存在局限性。RLVR虽然能提高整体准确率,但无法有效提升解决复杂问题的能力。蒸馏方法虽然可以同时提升准确率和能力,但其内在机制尚不明确,缺乏对不同类型问题提升效果的细致分析。现有方法未能充分理解RLVR和蒸馏对LLM推理行为的不同影响。
核心思路:本文的核心思路是通过对比分析RLVR和蒸馏两种方法在提升LLM推理能力时的表现差异,揭示其内在机制。具体而言,通过分析两种方法在不同难度问题上的表现,以及对模型输出质量的影响,来理解它们如何影响LLM的推理行为。同时,研究蒸馏过程中引入新知识对能力提升的影响。
技术框架:本文采用实验分析的方法,主要包含以下几个阶段: 1. RLVR训练:使用可验证奖励的强化学习方法训练LLM。 2. 蒸馏训练:使用教师模型生成的响应对学生模型进行蒸馏训练。 3. 性能评估:在不同难度的推理任务上评估模型的准确率(pass@1)和能力(pass@k)。 4. 响应分析:分析模型生成的响应的长度、关键词等特征,评估响应质量。 5. 知识引入分析:分析蒸馏过程中引入新知识对能力提升的影响。
关键创新:本文的创新点在于: 1. 揭示了RLVR侧重于提高简单问题准确率,而牺牲了难题准确率的现象,解释了其难以提升推理能力的原因。 2. 发现RLVR不仅提高了简单问题的成功概率,还在小模型设置中产生了高质量的响应。 3. 提出了蒸馏只有在引入新知识时才能有效提升LLM推理能力的观点。
关键设计:本文的关键设计包括: 1. 使用pass@k作为评估LLM推理能力的指标,能够更全面地反映模型解决复杂问题的能力。 2. 对模型生成的响应进行细致的分析,包括长度、关键词等特征,从而更深入地理解模型行为。 3. 设计实验来分析蒸馏过程中引入新知识对能力提升的影响,验证了相关假设。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RLVR虽然能提高整体准确率,但对难题的准确率反而下降,导致pass@k指标提升不明显。蒸馏实验表明,只有在引入新知识的情况下,蒸馏才能有效提升LLM的推理能力。单纯的推理模式蒸馏,效果有限,甚至可能牺牲难题的性能。
🎯 应用场景
该研究成果可应用于提升LLM在各种推理任务中的性能,例如数学问题求解、代码生成、逻辑推理等。通过选择合适的训练方法(RLVR或蒸馏)并优化训练策略,可以更好地提升LLM的推理能力,使其在实际应用中表现更佳。此外,该研究也为开发更有效的LLM训练方法提供了新的思路。
📄 摘要(原文)
Recent studies have shown that reinforcement learning with verifiable rewards (RLVR) enhances overall accuracy (pass@1) but often fails to improve capability (pass@k) of LLMs in reasoning tasks, while distillation can improve both. In this paper, we investigate the mechanisms behind these phenomena. First, we demonstrate that RLVR struggles to improve capability as it focuses on improving the accuracy of the easier questions to the detriment of the accuracy of the most difficult questions. Second, we show that RLVR does not merely increase the success probability for the easier questions, but in our small model settings, produces quality responses that were absent in its original output distribution. In addition, we show these responses are neither noticeably longer nor feature more reflection-related keywords, underscoring the need for more reliable indicators of response quality. Third, from the experiment distilling teacher responses to in-distribution problems, we find that capability does not always improve with distillation. We conjecture that capability improves only when new knowledge is introduced, whereas distilling reasoning patterns only improves accuracy but not capability, sacrificing performance on the most difficult questions, similar to RLVR. Together, these findings offer a clearer understanding of how RLVR and distillation shape reasoning behavior in LLMs