Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't

作者: Quy-Anh Dang, Chris Ngo

分类: cs.LG, cs.CL

发布日期: 2025-03-20

🔗 代码/项目: GITHUB

💡 一句话要点

利用强化学习提升小规模LLM的推理能力，兼顾效果与成本。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 小规模LLM 推理能力 资源受限 数学推理

📋 核心要点

现有LLM推理能力提升依赖大量计算资源和数据集，小规模模型难以企及。
采用强化学习方法，在资源约束下微调小规模LLM，提升其推理能力。
实验表明，该方法能以较低成本快速提升模型在数学推理任务上的准确率。

📝 摘要（中文）

本研究探讨了在资源受限环境下，利用强化学习（RL）提升小规模语言模型（LLM）推理能力的可能性。研究重点是参数量为15亿的DeepSeek-R1-Distill-Qwen-1.5B模型，并在严格的约束条件下进行训练：使用4块NVIDIA A40 GPU（每块48GB显存），训练时间不超过24小时。通过调整Group Relative Policy Optimization (GRPO)算法，并构建紧凑、高质量的数学推理数据集，进行了三项实验以探索模型行为和性能。结果表明，仅使用7000个样本和42美元的训练成本，推理能力就得到了快速提升，例如AMC23的准确率从63%提高到80%，AIME24达到46.7%，超过了o1-preview。然而，长时间训练也带来了优化不稳定和长度约束等挑战。这些发现突显了基于RL的微调对于小规模LLM的有效性，为大规模方法提供了一种经济高效的替代方案。我们开源了代码和数据集，为在资源有限的环境中构建可扩展、具有推理能力的LLM奠定了基础。

🔬 方法详解

问题定义：论文旨在解决小规模语言模型（LLM）在资源受限情况下推理能力不足的问题。现有方法通常依赖于大规模预训练和微调，需要巨大的计算资源和数据集，这使得小规模LLM难以获得有效的推理能力提升。因此，如何在有限的资源下，提升小规模LLM的推理能力是一个重要的挑战。

核心思路：论文的核心思路是利用强化学习（RL）对小规模LLM进行微调，使其在特定推理任务上获得更好的性能。通过设计合适的奖励函数和训练策略，引导模型学习正确的推理步骤，从而提升其推理能力。这种方法可以在较小的计算资源下实现较好的效果，为资源受限的环境提供了一种可行的解决方案。

技术框架：整体框架包括以下几个主要步骤：1) 选择一个预训练的小规模LLM作为基础模型；2) 构建一个高质量的数学推理数据集，用于RL训练；3) 采用Group Relative Policy Optimization (GRPO)算法对模型进行微调；4) 设计合适的奖励函数，鼓励模型生成正确的推理步骤；5) 通过实验评估模型的推理能力，并分析其行为和性能。

关键创新：论文的关键创新在于将强化学习应用于小规模LLM的推理能力提升，并探索了在资源受限条件下的训练策略。与传统的监督学习方法相比，强化学习能够更好地引导模型学习推理过程，从而获得更好的性能。此外，论文还针对小规模LLM的特点，对GRPO算法进行了调整，使其更适合于小规模模型的训练。

关键设计：论文的关键设计包括：1) 选择了DeepSeek-R1-Distill-Qwen-1.5B作为基础模型，该模型具有较好的性能和较小的参数量；2) 构建了一个紧凑、高质量的数学推理数据集，包含7000个样本；3) 采用了Group Relative Policy Optimization (GRPO)算法，并对其进行了调整，以适应小规模模型的训练；4) 设计了合适的奖励函数，鼓励模型生成正确的推理步骤，例如，对于数学问题，奖励函数可以基于答案的正确性进行设计。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用7000个样本和42美元的训练成本，AMC23的准确率从63%提高到80%，AIME24达到46.7%，超过了o1-preview。这表明，基于RL的微调方法能够以较低的成本快速提升小规模LLM的推理能力。同时，研究也指出了长时间训练可能带来的优化不稳定和长度约束等挑战，为未来的研究提供了方向。

🎯 应用场景

该研究成果可应用于资源受限的边缘计算设备、移动设备等场景，使这些设备具备一定的推理能力。例如，可以在智能手机上部署小规模LLM，用于辅助数学计算、逻辑推理等任务。此外，该研究还可以为开发低成本、高性能的LLM提供新的思路，促进LLM在各个领域的应用。

📄 摘要（原文）

Enhancing the reasoning capabilities of large language models (LLMs) typically relies on massive computational resources and extensive datasets, limiting accessibility for resource-constrained settings. Our study investigates the potential of reinforcement learning (RL) to improve reasoning in small LLMs, focusing on a 1.5-billion-parameter model, DeepSeek-R1-Distill-Qwen-1.5B, under strict constraints: training on 4 NVIDIA A40 GPUs (48 GB VRAM each) within 24 hours. Adapting the Group Relative Policy Optimization (GRPO) algorithm and curating a compact, high-quality mathematical reasoning dataset, we conducted three experiments to explore model behavior and performance. Our results demonstrate rapid reasoning gains - e.g., AMC23 accuracy rising from 63% to 80% and AIME24 reaching 46.7%, surpassing o1-preview - using only 7,000 samples and a $42 training cost, compared to thousands of dollars for baseline models. However, challenges such as optimization instability and length constraints emerged with prolonged training. These findings highlight the efficacy of RL-based fine-tuning for small LLMs, offering a cost-effective alternative to large-scale approaches. We release our code and datasets as open-source resources, providing insights into trade-offs and laying a foundation for scalable, reasoning-capable LLMs in resource-limited environments. All are available at https://github.com/knoveleng/open-rs.

Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理