Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models
作者: Pengyi Li, Matvey Skripkin, Alexander Zubrey, Andrey Kuznetsov, Ivan Oseledets
分类: cs.CL, cs.LG
发布日期: 2025-06-05 (更新: 2025-06-11)
💡 一句话要点
提出自信强化学习方法以优化语言模型微调
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 语言模型 自信度 微调 无标签监督 模型优化 数学基准测试
📋 核心要点
- 现有的强化学习方法依赖于昂贵的人类标注或外部奖励模型,限制了其应用的灵活性和效率。
- 提出的RLSC方法利用模型自身的自信度作为奖励信号,消除了对外部标签和奖励工程的需求。
- 实验结果显示,RLSC在多个数学基准测试中显著提高了模型的准确率,验证了其有效性和可行性。
📝 摘要(中文)
大型语言模型(LLMs)在推理方面表现优异,但后期训练对于使其行为与任务目标一致仍至关重要。现有的强化学习(RL)方法通常依赖于昂贵的人类标注或外部奖励模型。本文提出了一种通过自信进行强化学习的方法(RLSC),利用模型自身的自信度作为奖励信号,从而消除了对标签、偏好模型或奖励工程的需求。通过在Qwen2.5-Math-7B模型上应用RLSC,仅使用每个问题16个样本和10或20个训练步骤,RLSC在多个基准测试中显著提高了准确率,分别为AIME2024提高13.4%、MATH500提高21.2%、Minerva Math提高21.7%、Olympiadbench提高20.8%以及AMC23提高9.7%。RLSC为推理模型提供了一种简单、可扩展的后期训练方法,仅需少量样本和无标签监督。
🔬 方法详解
问题定义:本文旨在解决现有强化学习方法在后期训练中对昂贵人类标注和外部奖励模型的依赖问题,这限制了模型的灵活性和适应性。
核心思路:论文提出的RLSC方法通过利用模型自身的自信度作为奖励信号,避免了对外部标签和奖励模型的需求,从而实现了高效的微调。
技术框架:RLSC的整体架构包括自信度计算模块、奖励信号生成模块以及训练优化模块。模型首先计算自身对每个样本的自信度,然后将其作为奖励信号进行强化学习训练。
关键创新:RLSC的最大创新在于将自信度作为奖励信号,这一设计与传统RL方法的依赖外部奖励的方式本质上不同,显著降低了训练成本。
关键设计:在RLSC中,关键的参数设置包括自信度阈值的选择和训练步骤的数量,损失函数设计为结合自信度的强化学习损失,以优化模型的学习过程。通过合理的超参数调整,模型能够在少量样本上实现有效的微调。
📊 实验亮点
实验结果显示,RLSC在多个基准测试中显著提高了模型的准确率,其中AIME2024提高了13.4%,MATH500提高了21.2%,Minerva Math提高了21.7%,Olympiadbench提高了20.8%,AMC23提高了9.7%。这些结果表明RLSC方法在少量样本和无标签监督条件下的有效性。
🎯 应用场景
该研究的潜在应用领域包括教育、自动化问答系统和智能辅导工具等。通过优化语言模型的微调过程,RLSC能够在资源有限的情况下提高模型的性能,具有广泛的实际价值和影响力,尤其是在需要快速适应新任务的场景中。
📄 摘要(原文)
Large language models (LLMs) excel at reasoning, yet post-training remains critical for aligning their behavior with task goals. Existing reinforcement learning (RL) methods often depend on costly human annotations or external reward models. We propose Reinforcement Learning via Self-Confidence (RLSC), which uses the model's own confidence as reward signals-eliminating the need for labels, preference models, or reward engineering. Applied to Qwen2.5-Math-7B with only 16 samples per question and 10 or 20 training steps, RLSC improves accuracy by +13.4% on AIME2024, +21.2% on MATH500, +21.7% on Minerva Math, +20.8% on Olympiadbench, and +9.7% on AMC23. RLSC provides a simple, scalable post-training method for inference models, requiring only a small number of samples and unlabelled supervision.