Boosting Reinforcement Learning with Verifiable Rewards via Randomly Selected Few-Shot Guidance

📄 arXiv: 2605.15012v1 📥 PDF

作者: Kai Yan, Alexander G. Schwing, Yu-Xiong Wang

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-05-14

备注: 25 pages, 11 figures


💡 一句话要点

FEST:基于少量样本引导的可验证奖励强化学习,提升样本效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 可验证奖励 少量样本学习 演示引导 样本效率

📋 核心要点

  1. RLVR在复杂任务中面临样本效率挑战,难以生成高质量的思维链展开。
  2. FEST利用少量演示样本引导RLVR,结合监督信号和在线策略信号,并采用衰减权重防止过拟合。
  3. 实验表明,FEST仅用少量SFT数据即可超越或匹配使用完整数据集的基线方法。

📝 摘要(中文)

基于可验证奖励的强化学习(RLVR)在利用思维链展开的大型语言模型(LLM)开发方面取得了巨大成功,尤其是在数学和编程等任务中。然而,RLVR在难以生成正确展开的困难问题上,样本效率较低。先前的工作提出通过演示引导的RLVR来解决这个问题,即在RL失败时进行监督微调(SFT)。但是,SFT通常需要大量数据,这可能代价高昂。本文提出了FEST,一种基于少量演示引导的RLVR算法。它仅使用从SFT数据集中随机选择的128个演示样本,就获得了令人信服的结果。我们发现三个关键因素对成功至关重要:监督信号、在线策略信号以及少量样本SFT数据集上的衰减权重,以防止多轮训练中的过拟合。在多个基准测试中,FEST优于使用少量SFT数据的基线,甚至可以与使用完整数据集的基线相媲美。

🔬 方法详解

问题定义:论文旨在解决基于可验证奖励的强化学习(RLVR)在复杂任务中样本效率低下的问题。现有方法通常依赖大量监督微调(SFT)数据来引导学习,但获取这些数据成本高昂,限制了RLVR的应用范围。因此,如何在少量样本下提升RLVR的性能是本研究的核心问题。

核心思路:论文的核心思路是利用少量演示样本(few-shot demonstrations)来引导RLVR的学习过程,并结合监督信号和在线策略信号,以提高样本效率和泛化能力。通过精心设计的训练策略,防止在少量数据上进行多轮训练时可能发生的过拟合现象。

技术框架:FEST算法的整体框架如下:首先,从SFT数据集中随机选择少量演示样本。然后,利用这些样本进行监督学习,为RLVR提供初始策略。在强化学习阶段,结合监督信号和在线策略信号,通过奖励函数引导策略优化。为了防止过拟合,在SFT数据集上使用衰减权重,降低其对后续训练的影响。

关键创新:FEST的关键创新在于其在少量样本引导下的RLVR学习框架。与传统的依赖大量SFT数据的方法不同,FEST仅需少量演示样本即可实现良好的性能。此外,FEST通过结合监督信号和在线策略信号,并采用衰减权重,有效地解决了少量数据上的过拟合问题。

关键设计:FEST的关键设计包括:1) 随机选择少量演示样本;2) 结合监督学习和强化学习,利用监督信号引导策略初始化,利用在线策略信号进行策略优化;3) 在SFT数据集上使用衰减权重,降低其对后续训练的影响,防止过拟合。具体参数设置和损失函数细节在论文中进行了详细描述,例如衰减权重的具体形式和监督学习损失函数的选择。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FEST算法在多个基准测试中表现出色,仅使用128个随机选择的演示样本,就超越了使用大量SFT数据的基线方法。在某些任务中,FEST甚至可以与使用完整数据集的基线方法相媲美。这些结果表明,FEST在样本效率方面具有显著优势,为解决复杂任务的强化学习问题提供了一种新的思路。

🎯 应用场景

FEST算法具有广泛的应用前景,尤其是在数据获取成本高昂的领域,例如机器人控制、自动驾驶和自然语言处理等。通过利用少量专家演示数据,FEST可以快速训练出高性能的智能体,降低开发成本,加速应用落地。此外,FEST还可以应用于教育领域,例如个性化辅导和智能教学系统。

📄 摘要(原文)

Reinforcement Learning with Verifiable Rewards (RLVR) has achieved great success in developing Large Language Models (LLMs) with chain-of-thought rollouts for many tasks such as math and coding. Nevertheless, RLVR struggles with sample efficiency on difficult problems where correct rollouts are hard to generate. Prior works propose to address this issue via demonstration-guided RLVR, i.e., to conduct Supervised FineTuning (SFT) when RL fails; however, SFT often requires a lot of data, which can be expensive to acquire. In this paper, we propose FEST, a FEw-ShoT demonstration-guided RLVR algorithm. It attains compelling results with only 128 demonstrations randomly selected from an SFT dataset. We find that three components are vital for the success: supervised signal, on-policy signal, and decaying weights on the few-shot SFT dataset to prevent overfitting from multiple-epoch training. On several benchmarks, FEST outperforms baselines with magnitudes less SFT data, even matching their performance with full dataset.