ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood

📄 arXiv: 2409.10571v1 📥 PDF

作者: Ruoyu Wang, Jiachen Sun, Shaowei Hua, Quan Fang

分类: cs.LG, cs.AI

发布日期: 2024-09-14


💡 一句话要点

提出ASFT,通过优化绝对似然进行对齐监督微调,提升LLM与人类偏好对齐效果。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对齐监督微调 绝对似然 大型语言模型 人类偏好 直接偏好优化

📋 核心要点

  1. DPO方法对SFT质量敏感,且在学习人类偏好响应方面存在局限,导致对齐效果不佳。
  2. ASFT通过优化每个响应的绝对似然,而非依赖Bradley-Terry模型,从而更好地对齐LLM与人类偏好。
  3. 实验表明,ASFT在指令遵循和文本生成任务上均优于DPO及其变体,证明了其有效性。

📝 摘要(中文)

直接偏好优化(DPO)通过直接优化结果的偏好或排序来提升模型性能,而非传统的损失函数。DPO在将大型语言模型(LLM)与人类偏好对齐方面已被证明有效。尽管DPO被广泛应用于各种任务,但它因对监督微调(SFT)的有效性敏感,以及在使模型学习人类偏好响应方面的局限性而受到批评,导致性能不尽如人意。为了解决这些限制,我们提出了一种有效的对齐监督微调方法(ASFT),它通过优化每个响应的绝对似然,而不是使用Bradley-Terry模型,从而更好地将LLM与成对数据集对齐,并且消除了对参考模型的需求。通过理论梯度分析,我们证明ASFT缓解了DPO损失函数以更快的速度降低生成人类不偏好数据的概率,而不是提高生成偏好数据的概率的问题。此外,我们使用最新的指令调整模型Llama3,该模型已在UltraFeedback和HH-RLHF上进行了微调,将ASFT与DPO及其最新变体(如单步方法ORPO)进行了比较。我们在诸如MT-Bench之类的指令遵循基准以及诸如BLEU-4和ROUGE-L之类的传统文本生成指标上评估了性能。大量的实验表明,ASFT是一种有效的对齐方法,始终优于现有方法。

🔬 方法详解

问题定义:现有直接偏好优化(DPO)方法在将大型语言模型与人类偏好对齐时,存在对监督微调(SFT)质量的依赖性,并且在学习人类偏好响应方面存在局限性。DPO损失函数可能导致模型更快地降低生成不偏好数据的概率,而非提高生成偏好数据的概率,从而影响最终性能。

核心思路:ASFT的核心思路是通过直接优化每个响应的绝对似然来解决DPO的局限性。它避免了使用Bradley-Terry模型,从而消除了对参考模型的需求,并能够更直接地将LLM与成对数据集对齐。通过优化绝对似然,ASFT旨在更有效地学习人类偏好,并缓解DPO中存在的概率偏差问题。

技术框架:ASFT方法主要包括以下步骤:首先,使用监督微调(SFT)数据对LLM进行预训练。然后,使用包含人类偏好信息的成对数据集,通过优化绝对似然来对模型进行微调。ASFT直接优化模型生成偏好响应的概率,而无需像DPO那样依赖参考模型。整个过程旨在使模型更好地理解和生成符合人类偏好的文本。

关键创新:ASFT最重要的技术创新点在于它使用绝对似然优化来替代DPO中使用的Bradley-Terry模型。这种方法消除了对参考模型的依赖,并允许模型更直接地学习人类偏好。此外,ASFT通过梯度分析证明,它可以缓解DPO中存在的概率偏差问题,从而更有效地提高模型生成偏好响应的概率。

关键设计:ASFT的关键设计包括:使用交叉熵损失函数来优化每个响应的绝对似然。损失函数的设计旨在最大化模型生成人类偏好响应的概率。此外,ASFT没有引入额外的网络结构或复杂的参数设置,而是专注于优化现有的LLM,使其更好地与人类偏好对齐。实验中使用了Llama3模型,并在UltraFeedback和HH-RLHF数据集上进行了微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ASFT在MT-Bench等指令遵循基准以及BLEU-4和ROUGE-L等文本生成指标上均优于DPO及其变体ORPO。使用Llama3模型在UltraFeedback和HH-RLHF数据集上进行微调后,ASFT展现出了一致的性能提升,证明了其作为一种有效的对齐方法的优越性。

🎯 应用场景

ASFT方法可广泛应用于各种需要将大型语言模型与人类偏好对齐的场景,例如对话系统、文本生成、内容创作等。通过提升模型生成符合人类偏好的响应的能力,ASFT可以提高用户满意度,改善人机交互体验,并促进人工智能在各个领域的应用。

📄 摘要(原文)

Direct Preference Optimization (DPO) is a method for enhancing model performance by directly optimizing for the preferences or rankings of outcomes, instead of traditional loss functions. This approach has proven effective in aligning Large Language Models (LLMs) with human preferences. Despite its widespread use across various tasks, DPO has been criticized for its sensitivity to the effectiveness of Supervised Fine-Tuning (SFT) and its limitations in enabling models to learn human-preferred responses, leading to less satisfactory performance. To address these limitations, we propose Aligned Supervised Fine-Tuning (ASFT), an effective approach that better aligns LLMs with pair-wise datasets by optimizing absolute likelihood for each response, rather than using the Bradley-Terry model, and eliminates the need for a reference model. Through theoretical gradient analysis, we demonstrate that ASFT mitigates the issue where the DPO loss function decreases the probability of generating human-dispreferred data at a faster rate than it increases the probability of producing preferred data. Additionally, we compare ASFT to DPO and its latest variants, such as the single-step approach ORPO, using the latest instruction-tuned model Llama3, which has been fine-tuned on UltraFeedback and HH-RLHF. We evaluated performance on instruction-following benchmarks like MT-Bench and traditional text generation metrics such as BLEU-4 and ROUGE-L. Extensive experiments demonstrate that ASFT is an effective alignment approach, consistently outperforming existing methods.