Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment

作者: Jiaxiang Li, Siliang Zeng, Hoi-To Wai, Chenliang Li, Alfredo Garcia, Mingyi Hong

分类: cs.AI

发布日期: 2024-05-28 (更新: 2024-10-27)

💡 一句话要点

提出基于逆强化学习的SFT方法，提升LLM对齐效果并增强对低质量数据的鲁棒性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 监督微调 逆强化学习 人类偏好对齐 奖励模型

📋 核心要点

现有RLHF方法依赖高质量SFT数据，但实际数据常包含噪声，影响模型对齐效果。
提出基于逆强化学习的SFT方法，同步学习奖励模型和策略模型，提升对低质量数据的鲁棒性。
实验结果表明，该方法在1B和7B模型上均优于现有SFT方法，验证了奖励学习在SFT阶段的有效性。

📝 摘要（中文）

本文提出了一种新的监督微调（SFT）方法，用于提升大型语言模型（LLM）与人类偏好和价值观的对齐效果。现有技术如基于人类反馈的强化学习（RLHF）通常包含SFT和偏好学习两个阶段。本文认为，SFT阶段同样可以受益于奖励模型的学习。不同于直接使用监督学习，本文利用逆强化学习（IRL）技术同步构建奖励模型和策略模型。这种方法不仅高效易于实现，而且对低质量的监督学习数据具有鲁棒性。此外，本文还发现了所提出的基于IRL的方法与自博弈微调（SPIN）之间的联系。理论上，证明了所提出的算法收敛到IRL问题的平稳解。实验结果表明，使用该方法对1B和7B模型进行对齐，在奖励基准模型和HuggingFace Open LLM排行榜上均优于现有的SFT方法。研究结果表明，在整个对齐过程中利用奖励学习是有益的。

🔬 方法详解

问题定义：现有基于人类反馈的强化学习（RLHF）方法，在监督微调（SFT）阶段直接使用人类演示数据进行学习，容易受到低质量数据的影响，导致模型对齐效果不佳。因此，如何提升SFT阶段对低质量数据的鲁棒性，是本文要解决的核心问题。

核心思路：本文的核心思路是利用逆强化学习（IRL）技术，从人类演示数据中同时学习奖励模型和策略模型。通过学习奖励模型，可以更好地理解人类的偏好，从而指导策略模型的训练，即使在存在低质量数据的情况下，也能提升模型的对齐效果。

技术框架：该方法主要包含以下几个阶段：1）数据收集：收集人类演示数据；2）奖励模型学习：使用IRL技术，从人类演示数据中学习奖励模型；3）策略模型学习：利用学习到的奖励模型，训练策略模型，使其能够生成符合人类偏好的文本。整体流程是，先通过IRL从SFT数据中提取奖励信号，再利用该信号优化SFT模型。

关键创新：最重要的技术创新点在于将逆强化学习引入到SFT阶段。与传统的SFT方法直接使用监督学习不同，本文通过学习奖励模型，能够更好地理解人类的偏好，从而提升模型对齐效果，并增强对低质量数据的鲁棒性。此外，本文还发现了提出的IRL方法与自博弈微调（SPIN）之间的联系，为理解和改进SFT方法提供了新的视角。

关键设计：具体实现上，采用了最大熵IRL框架，目标是找到一个奖励函数，使得人类演示数据在该奖励函数下的策略是最优的。损失函数的设计需要平衡策略模型的行为与人类演示数据之间的差异，以及奖励模型的复杂度。具体的网络结构和参数设置根据不同的模型和数据集进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的基于IRL的SFT方法在1B和7B模型上均取得了显著的性能提升。在奖励基准模型和HuggingFace Open LLM Leaderboard上，该方法优于现有的SFT方法。例如，在某个特定指标上，该方法相比于传统SFT方法提升了X%，表明了其在提升模型对齐效果方面的有效性。

🎯 应用场景

该研究成果可应用于各种需要与人类偏好对齐的大型语言模型，例如智能助手、对话系统、内容生成等。通过提升模型对齐效果和鲁棒性，可以提高用户满意度，减少模型产生有害或不当内容的风险，从而促进LLM的更广泛应用。

📄 摘要（原文）

Aligning human preference and value is an important requirement for contemporary foundation models. State-of-the-art techniques such as Reinforcement Learning from Human Feedback (RLHF) often consist of two stages: 1) supervised fine-tuning (SFT), where the model is fine-tuned by learning from human demonstration data; 2) Preference learning, where preference data is used to learn a reward model, which is in turn used by a reinforcement learning (RL) step to fine-tune the model. Such reward model serves as a proxy to human preference, and it is critical to guide the RL step towards improving the model quality. In this work, we argue that the SFT stage significantly benefits from learning a reward model as well. Instead of using the human demonstration data directly via supervised learning, we propose to leverage an Inverse Reinforcement Learning (IRL) technique to simultaneously build an reward model and a policy model. This approach leads to new SFT algorithms that are not only efficient to implement, but are robust to the presence of low-quality supervised learning data. Moreover, we discover a connection between the proposed IRL based approach, and a recent line of works called Self-Play Fine-tune (SPIN). Theoretically, we show that the proposed algorithms converge to the stationary solutions of the IRL problem. Empirically, we align 1B and 7B models using proposed methods and evaluate them on a reward benchmark model and the HuggingFace Open LLM Leaderboard. The proposed methods show significant performance improvement over existing SFT approaches. Our results indicate that it is beneficial to leverage reward learning throughout the entire alignment process.

Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理