Scalpel vs. Hammer: GRPO Amplifies Existing Capabilities, SFT Replaces Them
作者: Neel Rajani, Aryo Pradipta Gema, Seraphina Goldfarb-Tarrant, Ivan Titov
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-07-13 (更新: 2025-07-25)
期刊: Actionable Interpretability Workshop ICML 2025
💡 一句话要点
对比强化学习与监督微调:揭示LLM推理能力训练的差异与影响
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 强化学习 监督微调 推理能力 知识遗忘
📋 核心要点
- 大型语言模型推理能力训练面临挑战,尤其是如何平衡新技能学习与旧知识保持。
- 论文对比了强化学习和监督微调两种主流方法,分析其对模型参数和性能的影响。
- 实验表明,强化学习倾向于增强现有能力,而监督微调可能导致知识遗忘。
📝 摘要(中文)
本文对比了强化学习(RL)和监督微调(SFT)在训练大型语言模型(LLM)进行数学和代码推理时的效果。研究发现,在数学问题上,RL能带来轻微的同域性能提升,但在知识密集型基准测试(如MMLU)上略有下降。SFT则表现出更明显的趋势。通过分析模型参数,发现两种算法主要修改查询和键的权重。SFT的更新幅度更大,且更多地影响中间层的MLP,这可能导致了域外性能下降。因此,研究尝试在训练期间冻结部分模型参数以缓解知识密集型基准测试的性能下降,但结果不确定。总体而言,这些观察初步表明RL能够增强现有能力,而SFT则倾向于用新技能取代旧技能。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在数学和代码数据集上进行推理训练时,强化学习(RL)和监督微调(SFT)两种方法的训练动态差异问题。现有方法对这两种方法的理解不足,尤其是在模型参数修改和域外性能影响方面。
核心思路:论文的核心思路是通过对比RL和SFT在相同数学问题、相同模型和相似超参数下的训练效果,深入分析两种方法对模型参数的影响,并探究其导致域外性能下降的原因。通过冻结部分模型参数,尝试缓解SFT带来的知识遗忘问题。
技术框架:论文采用对比分析的方法,主要包含以下几个阶段: 1. 使用RL和SFT分别训练LLM。 2. 在数学推理任务和知识密集型任务上评估模型性能。 3. 分析模型参数在训练过程中的变化,重点关注查询、键权重和MLP层的修改。 4. 尝试冻结部分模型参数,观察对性能的影响。
关键创新:论文的关键创新在于对RL和SFT的训练动态进行了深入比较分析,揭示了两种方法在模型参数修改和性能影响方面的差异。首次观察到SFT可能导致知识遗忘,并尝试通过冻结部分模型参数来缓解这一问题。
关键设计:论文的关键设计包括: 1. 使用相同的数学问题、模型和相似的超参数,以确保对比的公平性。 2. 重点分析查询、键权重和MLP层的修改,因为这些参数对模型性能至关重要。 3. 尝试冻结不同部分的模型参数,例如中间层MLP,以观察对性能的影响。 4. 使用MMLU和GPQA:Diamond等知识密集型基准测试来评估域外性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,强化学习在数学问题上能带来轻微的同域性能提升,但在知识密集型基准测试(如MMLU)上略有下降。SFT则表现出更明显的趋势。冻结部分模型参数的实验结果不确定,在GPQA:Diamond上有所提升,但在其他基准测试上有所下降。
🎯 应用场景
该研究成果可应用于指导大型语言模型的训练策略选择,帮助开发者更好地利用强化学习和监督微调来提升模型的推理能力,同时避免知识遗忘。尤其是在需要模型具备广泛知识和强大推理能力的场景下,例如智能助手、教育辅导等,该研究具有重要的参考价值。
📄 摘要(原文)
Training large language models (LLMs) for reasoning via maths and code datasets has become a major new focus in LLM post-training. Two particularly popular approaches are reinforcement learning (RL) and supervised fine-tuning (SFT), but their training dynamics are poorly understood. We present a comparative analysis of RL and SFT on the same maths problems with the same model and similar hyperparameters. We find that RL yields minor in-domain gains on maths and slight degradation on knowledge-intensive benchmarks like MMLU, while both trends are more pronounced in SFT. We also analyse model parameters across checkpoints, observing that both algorithms modify query and key weights the most. Meanwhile, SFT exhibits greater updates and also affects mid-layer MLPs more, leading us to hypothesise that this may have caused the out-of-domain degradation. We therefore investigate whether freezing parts of the model during training can mitigate the reduced performance on knowledge-intensive benchmarks. However, our results are inconclusive, with benefits on GPQA:Diamond and degradation on other benchmarks. Taken together, our observations provide a preliminary indication for why RL amplifies existing capabilities, while SFT replaces old skills with new ones.