On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

作者: Yongliang Wu, Yizhou Zhou, Zhou Ziheng, Yingzhe Peng, Xinyu Ye, Xinting Hu, Wenbo Zhu, Lu Qi, Ming-Hsuan Yang, Xu Yang

分类: cs.LG

发布日期: 2025-08-07 (更新: 2025-10-16)

备注: 14 pages, 3 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出动态微调(DFT)方法，通过修正奖励结构提升SFT泛化能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 监督式微调 大型语言模型 泛化能力 奖励结构 动态微调

📋 核心要点

标准SFT的梯度存在问题，隐式编码的奖励结构限制了模型的泛化能力。
提出动态微调(DFT)，通过token概率动态调整目标函数，稳定梯度更新。
DFT在多个基准测试和基础模型上显著优于SFT，并在离线RL中表现出竞争力。

📝 摘要（中文）

本文针对大型语言模型(LLM)的监督式微调(SFT)方法在泛化能力上不如强化学习(RL)的问题，提出了一种简单但理论上有依据的改进方法。通过数学分析，我们揭示了标准SFT梯度隐式地编码了一种有问题的奖励结构，这可能会严重限制模型的泛化能力。为了纠正这一点，我们提出了动态微调(DFT)，通过使用token的概率动态地重新调整目标函数，从而稳定每个token的梯度更新。值得注意的是，这种单行代码的更改在多个具有挑战性的基准测试和基础模型上显著优于标准SFT，展示了大大提高的泛化能力。此外，我们的方法在离线RL设置中也显示出有竞争力的结果，提供了一种有效但更简单的替代方案。这项工作桥接了理论见解和实际解决方案，大大提高了SFT的性能。代码将在https://github.com/yongliang-wu/DFT上提供。

🔬 方法详解

问题定义：论文旨在解决监督式微调(SFT)在大型语言模型(LLM)中泛化能力不足的问题。现有的SFT方法在训练数据上表现良好，但在未见过的数据上表现不佳，其痛点在于SFT的梯度更新方式可能导致模型学习到次优的奖励结构，从而限制了其泛化能力。

核心思路：论文的核心思路是通过动态调整目标函数，来修正SFT梯度中隐含的奖励结构。具体来说，论文认为标准SFT对所有token都赋予相同的权重，这可能导致模型过度关注高频token，而忽略了低频但重要的token。因此，论文提出根据token的概率来动态调整目标函数，从而平衡不同token对梯度更新的影响。

技术框架：论文提出的动态微调(DFT)方法是对标准SFT的改进，整体框架与SFT相同，包括数据准备、模型初始化、前向传播、损失计算、反向传播和参数更新等步骤。DFT的关键在于损失计算阶段，它通过token的概率来动态调整目标函数。

关键创新：论文最重要的技术创新点在于提出了动态调整目标函数的思想，并将其应用于SFT中。与现有方法的本质区别在于，DFT不是简单地最小化预测token与真实token之间的差异，而是根据token的概率来调整损失权重，从而修正了SFT梯度中隐含的奖励结构，提高了模型的泛化能力。

关键设计：DFT的关键设计在于如何计算token的概率以及如何使用该概率来调整目标函数。论文中使用模型预测的token概率作为调整权重，并将其与交叉熵损失函数相结合。具体来说，对于每个token，DFT将其交叉熵损失乘以该token的预测概率，从而得到动态调整后的损失。这个调整可以简单地通过一行代码实现。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DFT在多个具有挑战性的基准测试和基础模型上显著优于标准SFT。例如，在某些任务上，DFT的性能提升超过了10%。此外，DFT在离线RL设置中也显示出有竞争力的结果，证明了其有效性和通用性。

🎯 应用场景

该研究成果可广泛应用于各种需要使用大型语言模型进行微调的任务中，例如文本生成、机器翻译、对话系统等。通过提高SFT的泛化能力，可以减少模型对训练数据的依赖，使其在实际应用中表现更好。此外，该方法在离线RL中的应用也表明其具有更广泛的潜力。

📄 摘要（原文）

We present a simple yet theoretically motivated improvement to Supervised Fine-Tuning (SFT) for the Large Language Model (LLM), addressing its limited generalization compared to reinforcement learning (RL). Through mathematical analysis, we reveal that standard SFT gradients implicitly encode a problematic reward structure that may severely restrict the generalization capabilities of model. To rectify this, we propose Dynamic Fine-Tuning (DFT), stabilizing gradient updates for each token by dynamically rescaling the objective function with the probability of this token. Remarkably, this single-line code change significantly outperforms standard SFT across multiple challenging benchmarks and base models, demonstrating greatly improved generalization. Additionally, our approach shows competitive results in offline RL settings, offering an effective yet simpler alternative. This work bridges theoretical insight and practical solutions, substantially advancing SFT performance. The code will be available at https://github.com/yongliang-wu/DFT.

On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理