Minor SFT loss for LLM fine-tune to increase performance and reduce model deviation

📄 arXiv: 2408.10642v1 📥 PDF

作者: Shiming Xie, Hong Chen, Fred Yu, Zeye Sun, Xiuyu Wu

分类: cs.AI, cs.CL

发布日期: 2024-08-20

备注: 8 pages, 5 figures


💡 一句话要点

提出MinorSFT损失函数,提升SFT微调效果并降低LLM模型偏移

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 监督微调 语言模型 模型对齐 损失函数 模型偏移

📋 核心要点

  1. 现有SFT方法主要关注数据质量,忽略了模型微调过程中与原始模型的偏差。
  2. 论文提出MinorSFT损失函数,旨在减小微调后模型与原始模型的差异,提升训练效果。
  3. 实验结果(具体数据未知)表明,该方法能够有效提升模型性能,并降低模型偏移。

📝 摘要(中文)

Instruct LLM提供了一种将大规模语言模型与人类偏好对齐的范式,该范式包含监督微调(SFT)和基于人类反馈的强化学习(RLHF)。这种范式也被用于下游场景,以使LLM适应特定的语料库和应用。与SFT相比,许多工作集中在RLHF上,并提出了几种算法,如PPO、DPO、IPO、KTO、MinorDPO等。同时,SFT的大部分工作都集中在如何收集、过滤和混合高质量数据。在本文中,我们从DPO和MinorDPO中获得灵感,提出了一种SFT的训练指标,用于衡量优化后的模型与原始模型之间的差异,以及一种MinorSFT损失函数,可以提高训练效果,并减少优化后的LLM与原始LLM之间的差异。

🔬 方法详解

问题定义:现有监督微调(SFT)方法在调整大型语言模型(LLM)以适应特定任务或数据集时,主要关注高质量数据的收集和过滤。然而,这些方法往往忽略了微调后的模型与原始模型之间的偏差,可能导致模型泛化能力下降或产生意外行为。因此,需要一种能够有效提高训练效果,同时减少模型偏移的SFT方法。

核心思路:论文的核心思路是借鉴DPO和MinorDPO的思想,设计一种新的损失函数,该损失函数不仅能够优化模型以适应目标任务,还能够约束模型使其尽可能接近原始模型。通过这种方式,可以在提高模型性能的同时,保持模型的稳定性和可靠性。

技术框架:论文提出的MinorSFT方法仍然属于监督微调的范畴,其整体框架与传统的SFT方法类似。主要区别在于损失函数的设计。在训练过程中,模型接收输入数据,并根据MinorSFT损失函数计算梯度,然后使用优化器更新模型参数。

关键创新:论文的关键创新在于提出了MinorSFT损失函数,该损失函数包含两部分:一部分是传统的SFT损失,用于优化模型以适应目标任务;另一部分是正则化项,用于约束模型使其接近原始模型。这种损失函数的设计能够平衡模型性能和模型偏移之间的关系。

关键设计:MinorSFT损失函数的具体形式未知,但可以推测其包含两项:一是标准SFT损失,例如交叉熵损失,用于衡量模型预测与真实标签之间的差异;二是正则化项,用于衡量微调后的模型与原始模型之间的差异。正则化项的具体形式可能采用KL散度或类似的距离度量。关键参数可能包括正则化系数,用于控制正则化项的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了MinorSFT损失函数,旨在提升SFT微调效果并降低LLM模型偏移。虽然具体实验数据未知,但该方法借鉴了DPO和MinorDPO的成功经验,有望在提高模型性能的同时,有效降低模型与原始模型的差异,从而提升模型的稳定性和可靠性。

🎯 应用场景

该研究成果可广泛应用于各种需要对LLM进行微调的场景,例如特定领域的问答系统、文本生成、对话系统等。通过减少模型偏移,可以提高模型在实际应用中的稳定性和可靠性,降低模型产生有害或不准确信息的风险。此外,该方法还可以用于提高模型的泛化能力,使其能够更好地适应新的数据和任务。

📄 摘要(原文)

Instruct LLM provide a paradigm used in large scale language model to align LLM to human preference. The paradigm contains supervised fine tuning and reinforce learning from human feedback. This paradigm is also used in downstream scenarios to adapt LLM to specific corpora and applications. Comparing to SFT, there are many efforts focused on RLHF and several algorithms being proposed, such as PPO, DPO, IPO, KTO, MinorDPO and etc. Meanwhile most efforts for SFT are focused on how to collect, filter and mix high quality data. In this article with insight from DPO and MinorDPO, we propose a training metric for SFT to measure the discrepancy between the optimized model and the original model, and a loss function MinorSFT that can increase the training effectiveness, and reduce the discrepancy between the optimized LLM and original LLM.