SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models

作者: Dai Do, Manh Nguyen, Svetha Venkatesh, Hung Le

分类: cs.LG, cs.AI

发布日期: 2025-08-07

💡 一句话要点

SPaRFT：基于自步强化微调的大语言模型高效学习框架

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 强化学习 自步学习 课程学习 数据选择 多臂老虎机 推理 微调

📋 核心要点

现有大语言模型微调方法依赖大量数据和计算资源，对小模型不友好，且现有课程学习方法可扩展性差。
SPaRFT通过聚类缩减数据规模，并使用多臂老虎机根据模型性能自适应选择训练数据，实现高效学习。
实验表明，SPaRFT在推理任务上，使用更少数据量的情况下，达到与SOTA方法相当甚至更好的性能。

📝 摘要（中文）

大型语言模型（LLMs）在通过强化学习（RL）进行微调后，展现出强大的推理能力。然而，此类方法需要大量的数据和计算资源，这使得它们对于较小的模型来说并不实用。现有的课程学习或数据选择方法在很大程度上是启发式的，或者需要大量的计算资源，限制了它们的可扩展性和通用性。我们提出了SPaRFT，一个自步学习框架，它能够基于被训练模型的能力进行高效学习，通过优化使用哪些数据以及何时使用。首先，我们应用基于聚类的数据缩减来按语义和难度划分训练数据，提取一个紧凑而多样化的子集，从而减少冗余。然后，一个多臂老虎机将数据集群视为臂，优化以基于模型当前性能分配训练样本。在多个推理基准上的实验表明，SPaRFT在使用的样本减少高达100倍的情况下，实现了与最先进的基线相当或更好的准确性。消融研究和分析进一步强调了数据聚类和自适应选择的重要性。我们的结果表明，精心策划的、性能驱动的训练课程可以用最少的资源释放LLM强大的推理能力。

🔬 方法详解

问题定义：现有的大语言模型微调方法，特别是基于强化学习的微调，需要大量的训练数据和计算资源，这使得它们在资源受限的环境下，例如较小的模型上，难以应用。此外，现有的课程学习和数据选择方法通常依赖于启发式规则或需要大量的计算开销，限制了它们的可扩展性和通用性。因此，如何高效地利用有限的数据和计算资源，提升小模型的推理能力，是一个亟待解决的问题。

核心思路：SPaRFT的核心思路是模仿人类学习的过程，即从简单到复杂，逐步提升模型的能力。它通过自步学习的方式，根据模型当前的性能，动态地选择合适的训练数据。具体来说，它首先对训练数据进行聚类，然后使用多臂老虎机算法，根据模型在每个数据簇上的表现，自适应地调整每个簇的采样概率，从而实现高效的训练。

技术框架：SPaRFT框架主要包含两个阶段：数据聚类缩减和自适应数据选择。首先，使用聚类算法（例如k-means）将训练数据划分为若干个簇，每个簇代表一类具有相似语义和难度的样本。然后，将每个数据簇视为一个臂，构建一个多臂老虎机模型。在训练过程中，多臂老虎机根据模型在每个簇上的表现（例如奖励），动态地调整每个簇的采样概率。模型在表现较好的簇上采样概率较高，反之则较低。

关键创新：SPaRFT的关键创新在于它将自步学习和强化学习相结合，提出了一种性能驱动的数据选择策略。与传统的启发式数据选择方法相比，SPaRFT能够根据模型自身的学习状态，自适应地选择合适的训练数据，从而实现更高效的训练。此外，SPaRFT还通过数据聚类缩减了数据规模，进一步降低了计算成本。

关键设计：在数据聚类阶段，可以使用不同的聚类算法，例如k-means或层次聚类。簇的数量是一个重要的超参数，需要根据具体任务进行调整。在多臂老虎机阶段，可以使用不同的奖励函数来衡量模型在每个簇上的表现。例如，可以使用模型在每个簇上的准确率或损失函数值作为奖励。此外，还需要选择合适的多臂老虎机算法，例如UCB或Thompson Sampling。探索-利用的平衡策略对最终性能有重要影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SPaRFT在多个推理基准上，使用高达100倍更少的样本，实现了与SOTA基线相当或更好的准确率。消融实验证明了数据聚类和自适应选择的重要性。例如，在某个基准测试中，SPaRFT仅使用1%的数据，就达到了与使用全部数据训练的基线模型相当的性能。

🎯 应用场景

SPaRFT可应用于资源受限场景下的大语言模型微调，例如在边缘设备上部署小模型，或在数据量有限的情况下提升模型性能。该方法能够降低训练成本，加速模型迭代，并提升模型的泛化能力。未来，SPaRFT可以扩展到其他机器学习任务中，例如图像分类、目标检测等。

📄 摘要（原文）

Large language models (LLMs) have shown strong reasoning capabilities when fine-tuned with reinforcement learning (RL). However, such methods require extensive data and compute, making them impractical for smaller models. Current approaches to curriculum learning or data selection are largely heuristic-driven or demand extensive computational resources, limiting their scalability and generalizability. We propose \textbf{SPaRFT}, a self-paced learning framework that enables efficient learning based on the capability of the model being trained through optimizing which data to use and when. First, we apply \emph{cluster-based data reduction} to partition training data by semantics and difficulty, extracting a compact yet diverse subset that reduces redundancy. Then, a \emph{multi-armed bandit} treats data clusters as arms, optimized to allocate training samples based on model current performance. Experiments across multiple reasoning benchmarks show that SPaRFT achieves comparable or better accuracy than state-of-the-art baselines while using up to (100\times) fewer samples. Ablation studies and analyses further highlight the importance of both data clustering and adaptive selection. Our results demonstrate that carefully curated, performance-driven training curricula can unlock strong reasoning abilities in LLMs with minimal resources.

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理