UFT: Unifying Fine-Tuning of SFT and RLHF/DPO/UNA through a Generalized Implicit Reward Function

作者: Zhichao Wang, Bin Bi, Zixu Zhu, Xiangbo Mao, Jun Wang, Shiyu Wang

分类: cs.CL, cs.LG

发布日期: 2024-10-28 (更新: 2025-04-06)

💡 一句话要点

UFT：通过广义隐式奖励函数统一SFT与RLHF/DPO/UNA的微调

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 监督微调 对齐 灾难性遗忘 隐式奖励函数

📋 核心要点

现有方法中，SFT和对齐训练目标不一致，导致灾难性遗忘，影响模型性能。
UFT通过引入广义隐式奖励函数，将SFT和对齐统一到同一训练阶段，共享目标和损失函数。
实验表明，UFT能有效防止灾难性遗忘，在指令遵循和事实性任务上均优于传统SFT方法。

📝 摘要（中文）

大型语言模型（LLM）通过在数万亿token上进行预训练，获得了文本生成能力。然而，为了增强其效用并减少潜在危害，通常会依次应用监督微调（SFT）和对齐技术。由于SFT和对齐的性质和目标函数不同，灾难性遗忘已成为一个重要问题。为了解决这个问题，我们引入了统一微调（UFT），它通过隐式奖励函数将SFT和对齐集成到单个训练阶段，使用相同的目标和损失函数。实验结果表明，UFT在仅使用指令调优数据时优于SFT。此外，当将指令调优数据与对齐数据结合使用时，UFT有效地防止了这两个阶段之间的灾难性遗忘，并且显示出优于顺序应用SFT和对齐的明显优势。这在指令遵循的ifeval任务和事实性的truthful-qa任务中观察到的显着改进中显而易见。所提出的通用微调框架UFT为LLM训练建立了一种有效且高效的预训练-UFT范例。

🔬 方法详解

问题定义：现有的大型语言模型训练流程通常包含预训练、监督微调（SFT）和对齐（Alignment）三个阶段。SFT旨在使模型遵循指令，而对齐则旨在使模型的输出更符合人类的偏好和价值观。然而，由于SFT和对齐的目标函数不同，导致在对齐阶段容易发生灾难性遗忘，即模型忘记了在SFT阶段学到的知识，从而影响整体性能。现有方法无法有效解决SFT和对齐之间的冲突。

核心思路：UFT的核心思路是将SFT和对齐统一到一个训练阶段，通过一个广义的隐式奖励函数来同时优化指令遵循和偏好对齐。这样可以避免SFT和对齐之间的目标冲突，从而减少灾难性遗忘的发生。通过隐式奖励函数，将不同的训练数据（如指令数据和偏好数据）转化为统一的优化目标。

技术框架：UFT框架主要包含以下几个步骤：1. 使用预训练的LLM作为基础模型。2. 定义一个广义的隐式奖励函数，该函数能够同时反映指令遵循和偏好对齐的要求。3. 使用指令数据和偏好数据，通过优化该隐式奖励函数来微调LLM。4. 在评估数据集上测试微调后的LLM的性能，包括指令遵循能力和偏好对齐程度。

关键创新：UFT的关键创新在于提出了一个广义的隐式奖励函数，该函数能够将SFT和对齐统一到一个训练阶段。与传统的分别进行SFT和对齐的方法相比，UFT能够更有效地利用训练数据，避免灾难性遗忘，并提高模型的整体性能。这种统一的框架简化了LLM的训练流程，并为未来的研究提供了新的方向。

关键设计：UFT的关键设计包括：1. 隐式奖励函数的具体形式，需要能够灵活地表达不同的训练目标。2. 优化算法的选择，需要能够有效地优化隐式奖励函数。3. 训练数据的选择和处理，需要保证数据的质量和多样性。论文中具体使用了何种隐式奖励函数、优化算法和数据处理方法，需要查阅原文以获取更详细的信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，UFT在指令遵循（ifeval）和事实性（truthful-qa）任务上均取得了显著的提升。与传统的SFT方法相比，UFT能够更有效地防止灾难性遗忘，并提高模型的整体性能。具体的数据提升幅度需要在论文中查找。

🎯 应用场景

UFT框架可广泛应用于各种需要指令遵循和偏好对齐的大型语言模型训练场景，例如对话系统、文本摘要、代码生成等。该方法能够提升模型的实用性和安全性，使其更好地服务于人类。未来，UFT可以进一步扩展到多模态场景，例如图像描述、视频理解等，实现更广泛的应用。

📄 摘要（原文）

By pretraining on trillions of tokens, an LLM gains the capability of text generation. However, to enhance its utility and reduce potential harm, SFT and alignment are applied sequentially to the pretrained model. Due to the differing nature and objective functions of SFT and alignment, catastrophic forgetting has become a significant issue. To address this, we introduce Unified Fine-Tuning (UFT), which integrates SFT and alignment into a single training stage using the same objective and loss functions through an implicit reward function. Our experimental results demonstrate that UFT outperforms SFT on instruction-tuning data alone. Moreover, when combining instruction-tuning data with alignment data, UFT effectively prevents catastrophic forgetting across these two stages and shows a clear advantage over sequentially applying SFT and alignment. This is evident in the significant improvements observed in the \textbf{ifeval} task for instruction-following and the \textbf{truthful-qa} task for factuality. The proposed general fine-tuning framework UFT establishes an effective and efficient pretraining-UFT paradigm for LLM training.

UFT: Unifying Fine-Tuning of SFT and RLHF/DPO/UNA through a Generalized Implicit Reward Function

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理