Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't

📄 arXiv: 2503.16219v1 📥 PDF

作者: Quy-Anh Dang, Chris Ngo

分类: cs.LG, cs.CL

发布日期: 2025-03-20

🔗 代码/项目: GITHUB


💡 一句话要点

利用强化学习提升小规模LLM的推理能力,兼顾效果与成本。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 小规模LLM 推理能力 资源受限 数学推理

📋 核心要点

  1. 现有LLM推理能力提升依赖大量计算资源和数据集,小规模模型难以企及。
  2. 采用强化学习方法,在资源约束下微调小规模LLM,提升其推理能力。
  3. 实验表明,该方法能以较低成本快速提升模型在数学推理任务上的准确率。

📝 摘要(中文)

本研究探讨了在资源受限环境下,利用强化学习(RL)提升小规模语言模型(LLM)推理能力的可能性。研究重点是参数量为15亿的DeepSeek-R1-Distill-Qwen-1.5B模型,并在严格的约束条件下进行训练:使用4块NVIDIA A40 GPU(每块48GB显存),训练时间不超过24小时。通过调整Group Relative Policy Optimization (GRPO)算法,并构建紧凑、高质量的数学推理数据集,进行了三项实验以探索模型行为和性能。结果表明,仅使用7000个样本和42美元的训练成本,推理能力就得到了快速提升,例如AMC23的准确率从63%提高到80%,AIME24达到46.7%,超过了o1-preview。然而,长时间训练也带来了优化不稳定和长度约束等挑战。这些发现突显了基于RL的微调对于小规模LLM的有效性,为大规模方法提供了一种经济高效的替代方案。我们开源了代码和数据集,为在资源有限的环境中构建可扩展、具有推理能力的LLM奠定了基础。

🔬 方法详解

问题定义:论文旨在解决小规模语言模型(LLM)在资源受限情况下推理能力不足的问题。现有方法通常依赖于大规模预训练和微调,需要巨大的计算资源和数据集,这使得小规模LLM难以获得有效的推理能力提升。因此,如何在有限的资源下,提升小规模LLM的推理能力是一个重要的挑战。

核心思路:论文的核心思路是利用强化学习(RL)对小规模LLM进行微调,使其在特定推理任务上获得更好的性能。通过设计合适的奖励函数和训练策略,引导模型学习正确的推理步骤,从而提升其推理能力。这种方法可以在较小的计算资源下实现较好的效果,为资源受限的环境提供了一种可行的解决方案。

技术框架:整体框架包括以下几个主要步骤:1) 选择一个预训练的小规模LLM作为基础模型;2) 构建一个高质量的数学推理数据集,用于RL训练;3) 采用Group Relative Policy Optimization (GRPO)算法对模型进行微调;4) 设计合适的奖励函数,鼓励模型生成正确的推理步骤;5) 通过实验评估模型的推理能力,并分析其行为和性能。

关键创新:论文的关键创新在于将强化学习应用于小规模LLM的推理能力提升,并探索了在资源受限条件下的训练策略。与传统的监督学习方法相比,强化学习能够更好地引导模型学习推理过程,从而获得更好的性能。此外,论文还针对小规模LLM的特点,对GRPO算法进行了调整,使其更适合于小规模模型的训练。

关键设计:论文的关键设计包括:1) 选择了DeepSeek-R1-Distill-Qwen-1.5B作为基础模型,该模型具有较好的性能和较小的参数量;2) 构建了一个紧凑、高质量的数学推理数据集,包含7000个样本;3) 采用了Group Relative Policy Optimization (GRPO)算法,并对其进行了调整,以适应小规模模型的训练;4) 设计了合适的奖励函数,鼓励模型生成正确的推理步骤,例如,对于数学问题,奖励函数可以基于答案的正确性进行设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用7000个样本和42美元的训练成本,AMC23的准确率从63%提高到80%,AIME24达到46.7%,超过了o1-preview。这表明,基于RL的微调方法能够以较低的成本快速提升小规模LLM的推理能力。同时,研究也指出了长时间训练可能带来的优化不稳定和长度约束等挑战,为未来的研究提供了方向。

🎯 应用场景

该研究成果可应用于资源受限的边缘计算设备、移动设备等场景,使这些设备具备一定的推理能力。例如,可以在智能手机上部署小规模LLM,用于辅助数学计算、逻辑推理等任务。此外,该研究还可以为开发低成本、高性能的LLM提供新的思路,促进LLM在各个领域的应用。

📄 摘要(原文)

Enhancing the reasoning capabilities of large language models (LLMs) typically relies on massive computational resources and extensive datasets, limiting accessibility for resource-constrained settings. Our study investigates the potential of reinforcement learning (RL) to improve reasoning in small LLMs, focusing on a 1.5-billion-parameter model, DeepSeek-R1-Distill-Qwen-1.5B, under strict constraints: training on 4 NVIDIA A40 GPUs (48 GB VRAM each) within 24 hours. Adapting the Group Relative Policy Optimization (GRPO) algorithm and curating a compact, high-quality mathematical reasoning dataset, we conducted three experiments to explore model behavior and performance. Our results demonstrate rapid reasoning gains - e.g., AMC23 accuracy rising from 63% to 80% and AIME24 reaching 46.7%, surpassing o1-preview - using only 7,000 samples and a $42 training cost, compared to thousands of dollars for baseline models. However, challenges such as optimization instability and length constraints emerged with prolonged training. These findings highlight the efficacy of RL-based fine-tuning for small LLMs, offering a cost-effective alternative to large-scale approaches. We release our code and datasets as open-source resources, providing insights into trade-offs and laying a foundation for scalable, reasoning-capable LLMs in resource-limited environments. All are available at https://github.com/knoveleng/open-rs.