Supervised Fine Tuning on Curated Data is Reinforcement Learning (and can be improved)

📄 arXiv: 2507.12856v2 📥 PDF

作者: Chongli Qin, Jost Tobias Springenberg

分类: cs.LG, cs.AI

发布日期: 2025-07-17 (更新: 2025-09-06)

备注: See project website for details and code at: https://independentresearch.ai/posts/iwsft


💡 一句话要点

将监督式微调视为强化学习,并提出重要性加权方法iw-SFT以提升性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 监督式微调 强化学习 行为克隆 重要性加权 语言模型

📋 核心要点

  1. 现有监督式微调(SFT)方法在精选数据上进行行为克隆,但缺乏与强化学习(RL)的直接联系,可能导致性能受限。
  2. 论文核心在于将SFT视为最大化RL目标的下界,并提出重要性加权SFT(iw-SFT)以优化更紧密的下界,从而更接近RL训练。
  3. 实验结果表明,iw-SFT易于实现,且在大型语言模型和连续控制任务中,性能与更高级的RL算法相比具有竞争力,例如在AIME 2024数据集上达到了66.7%的准确率。

📝 摘要(中文)

本文探讨了在精选(或过滤)数据上进行行为克隆(BC)的监督式微调(SFT)方法,该方法是大型语言模型和控制策略模仿学习的主要范式。作者将这种成功策略与通过强化学习(RL)寻找最优策略的理论和实践联系起来。基于现有文献,作者阐明了SFT可以被理解为在稀疏奖励环境中最大化RL目标的下界,从而解释了其良好的性能。在此基础上,作者提出了一种对SFT的改进方法,即重要性加权监督式微调(iw-SFT),它更接近于使用RL进行训练,因为它优化了RL目标的更严格的下界,并且可以提高在精选数据上进行SFT的性能。作者证明了iw-SFT易于实现,并且可以进一步推广到使用质量评分数据进行训练。所提出的SFT变体在大型语言模型和连续控制任务中与更高级的RL算法相比具有竞争力,例如在AIME 2024数据集上实现了66.7%的准确率。

🔬 方法详解

问题定义:论文旨在解决如何提升基于精选数据的监督式微调(SFT)的性能,使其更接近强化学习(RL)的效果。现有SFT方法虽然有效,但缺乏与RL的理论联系,可能导致优化目标不明确,性能提升受限。

核心思路:论文的核心思路是将SFT视为在稀疏奖励环境下最大化RL目标的下界。通过这种视角,作者意识到可以通过修改SFT来优化更紧密的下界,从而更接近RL训练。具体而言,引入重要性加权,使得模型更加关注高质量的数据样本。

技术框架:论文提出的重要性加权监督式微调(iw-SFT)是在标准SFT的基础上进行改进的。整体流程与SFT类似,首先收集精选数据,然后使用这些数据对模型进行微调。关键区别在于,在计算损失函数时,对每个样本赋予一个权重,该权重反映了样本的重要性或质量。

关键创新:论文最重要的技术创新点在于将SFT与RL联系起来,并提出了iw-SFT方法。与传统SFT相比,iw-SFT通过重要性加权,优化了更紧密的RL目标下界,从而更有效地利用了精选数据,提高了模型性能。

关键设计:iw-SFT的关键设计在于如何确定每个样本的权重。一种方法是使用专家提供的质量评分,另一种方法是根据样本的预测概率来计算权重。损失函数通常采用交叉熵损失,并乘以相应的权重。具体的权重计算公式和超参数设置需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

论文实验结果表明,提出的iw-SFT方法在多个任务上都取得了显著的性能提升。例如,在AIME 2024数据集上,iw-SFT达到了66.7%的准确率,与更高级的RL算法相比具有竞争力。此外,作者还验证了iw-SFT在连续控制任务中的有效性,证明了其广泛的适用性。

🎯 应用场景

该研究成果可广泛应用于大型语言模型的微调和控制策略的模仿学习。例如,可以用于提升聊天机器人的对话质量、提高自动驾驶系统的安全性、优化机器人的运动控制等。通过更有效地利用精选数据,可以降低训练成本,提高模型性能,加速人工智能技术的落地应用。

📄 摘要(原文)

Behavior Cloning (BC) on curated (or filtered) data is the predominant paradigm for supervised fine-tuning (SFT) of large language models; as well as for imitation learning of control policies. Here, we draw on a connection between this successful strategy and the theory and practice of finding optimal policies via Reinforcement Learning (RL). Building on existing literature, we clarify that SFT can be understood as maximizing a lower bound on the RL objective in a sparse reward setting. Giving support to its often observed good performance. From this viewpoint, we realize that a small modification to SFT leads to an importance weighted variant that behaves closer to training with RL as it: i) optimizes a tighter bound to the RL objective and, ii) can improve performance compared to SFT on curated data. We refer to this variant as importance weighted supervised fine-tuning (iw-SFT). We show that it is easy to implement and can be further generalized to training with quality scored data. The resulting SFT variants are competitive with more advanced RL algorithms for large language models and for training policies in continuous control tasks. For example achieving 66.7% on the AIME 2024 dataset.