Learning from Less: Measuring the Effectiveness of RLVR in Low Data and Compute Regimes

📄 arXiv: 2604.18381v1 📥 PDF

作者: Justin Bauer, Thomas Walshe, Derek Pham, Harit Vishwakarma, Armin Parchami, Frederic Sala, Paroma Varma

分类: cs.AI, cs.LG

发布日期: 2026-04-20


💡 一句话要点

在低数据和计算资源下,研究RLVR在小语言模型上的有效性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 小语言模型 强化学习 可验证奖励 低数据学习 程序生成数据

📋 核心要点

  1. 现有LLM微调依赖大量标注数据和算力,但在资源受限场景下效果不佳,缺乏适用性。
  2. 论文研究在低数据状态下,使用RLVR方法微调小语言模型(SLM)的性能表现。
  3. 实验表明,混合复杂度数据集训练能显著提升样本效率,最高可达5倍。

📝 摘要(中文)

微调大型语言模型(LLM)通常依赖于大量高质量的标注数据,或者在使用可验证奖励的强化学习(RLVR)中,依赖于具有明确定义的正确答案的问题。虽然之前的工作已经探索了通过扩展用于RLVR的数据和计算来提升模型推理能力的好处,但这些结果在许多现实场景中缺乏适用性,因为在这些场景中,标注数据和可访问的计算资源可能很稀缺。在这项工作中,我们对开源小语言模型(SLM)在低数据状态下经过RLVR后的性能进行了全面的实证研究。在涵盖数字计数问题、图推理和空间推理的三个新数据集中,我们描述了模型性能如何随数据集大小、多样性和复杂性而变化。我们证明了(1)程序生成的数据集允许进行细粒度的评估和具有可控属性(大小、多样性和复杂性)的训练数据集开发,(2)在RLVR下,在较低复杂度任务上训练的模型可以泛化到较高复杂度的任务,以及(3)在混合复杂度数据集上进行训练与低数据状态下的最大收益相关联,与在简单任务上训练相比,提供了高达5倍的样本效率。这些发现启发了未来关于RLVR数据缩放定律的开发,以及使用程序数据生成器来进一步理解有效的数据开发以实现高效的LLM微调。

🔬 方法详解

问题定义:论文旨在解决在数据和计算资源有限的情况下,如何有效地微调小语言模型(SLM),使其在推理任务上表现良好。现有方法,特别是针对大型语言模型(LLM)的微调方法,通常依赖于大量高质量的标注数据和强大的计算资源,这在许多实际应用场景中是不可行的。因此,如何在低数据和低计算资源的情况下,提升SLM的推理能力是一个重要的挑战。

核心思路:论文的核心思路是利用可验证奖励的强化学习(RLVR)方法,结合程序生成的数据集,来有效地训练SLM。通过控制数据集的复杂度和多样性,研究不同训练策略对模型性能的影响。核心在于探索数据复杂度和模型泛化能力之间的关系,以及如何通过混合复杂度的数据集来提高训练效率。

技术框架:整体框架包括三个主要部分:1) 程序生成数据集:创建包含数字计数、图推理和空间推理任务的数据集,并控制数据集的大小、多样性和复杂度。2) RLVR训练:使用RLVR方法对SLM进行微调,其中奖励信号基于模型输出的正确性进行定义。3) 性能评估:在不同复杂度的数据集上评估模型的性能,并分析数据集特性对模型泛化能力的影响。

关键创新:论文的关键创新在于:1) 系统性地研究了在低数据状态下,RLVR对SLM的有效性。2) 提出了使用程序生成数据集来控制训练数据的复杂度和多样性的方法,从而可以更精细地研究数据特性对模型性能的影响。3) 发现混合复杂度数据集训练可以显著提高样本效率,这为低资源条件下的模型微调提供了新的思路。

关键设计:在数据集设计方面,论文使用了程序生成的方法,可以精确控制数据集的大小、多样性和复杂度。例如,在图推理任务中,可以通过控制图的节点数量和连接方式来调整任务的复杂度。在RLVR训练方面,奖励函数的设计基于模型输出的正确性,例如,如果模型给出的答案与正确答案一致,则给予正向奖励,否则给予负向奖励。具体参数设置和网络结构信息未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在低数据状态下,使用RLVR方法训练SLM可以取得显著的性能提升。特别是在混合复杂度数据集上进行训练,与在简单任务上训练相比,样本效率提高了高达5倍。此外,研究还发现,在较低复杂度任务上训练的模型可以泛化到较高复杂度的任务,这表明通过合理的训练策略,可以在低资源条件下提升模型的泛化能力。

🎯 应用场景

该研究成果可应用于资源受限的边缘计算设备,例如移动机器人、嵌入式系统等,使其具备一定的推理能力。通过高效的数据生成和训练方法,可以降低模型部署的成本和难度,加速AI技术在各行业的落地。未来的研究可以探索更复杂的数据生成策略和更高效的RLVR算法。

📄 摘要(原文)

Fine-tuning Large Language Models (LLMs) typically relies on large quantities of high-quality annotated data, or questions with well-defined ground truth answers in the case of Reinforcement Learning with Verifiable Rewards (RLVR). While previous work has explored the benefits to model reasoning capabilities by scaling both data and compute used for RLVR, these results lack applicability in many real-world settings where annotated data and accessible compute may be scarce. In this work, we present a comprehensive empirical study of open-source Small Language Model (SLM) performance after RLVR in low data regimes. Across three novel datasets covering number counting problems, graph reasoning, and spatial reasoning, we characterize how model performance scales with dataset size, diversity, and complexity. We demonstrate that (1) procedural datasets allow for fine-grained evaluation and training dataset development with controllable properties (size, diversity, and complexity), (2) under RLVR, models trained on lower complexity tasks can generalize to higher complexity tasks, and (3) training on mixed complexity datasets is associated with the greatest benefits in low data regimes, providing up to 5x sample efficiency versus training on easy tasks. These findings inspire future work on the development of data scaling laws for RLVR and the use of procedural data generators to further understand effective data development for efficient LLM fine-tuning.