As Simple as Fine-tuning: LLM Alignment via Bidirectional Negative Feedback Loss

📄 arXiv: 2410.04834v2 📥 PDF

作者: Xin Mao, Feng-Lin Li, Huimin Xu, Wei Zhang, Wang Chen, Anh Tuan Luu

分类: cs.CL

发布日期: 2024-10-07 (更新: 2024-10-25)

备注: 20 pages, 9 figures


💡 一句话要点

提出双向负反馈损失BNF,简化LLM对齐过程并提升数学数据集上的稳定性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: LLM对齐 偏好优化 双向负反馈 数学推理 稳定性

📋 核心要点

  1. DPO等方法在数学数据集上存在不稳定性和超参数敏感问题,源于单向负反馈。
  2. 提出双向负反馈损失(BNF),无需成对对比损失和额外超参数,简化对齐流程。
  3. 实验表明,BNF在QA任务上表现与最佳方法相当,推理任务上性能下降更少,平衡价值对齐和推理能力。

📝 摘要(中文)

直接偏好优化(DPO)作为一种更高效的替代方案,取代了使用近端策略优化(PPO)的基于人类反馈的强化学习(RLHF),消除了对奖励模型和在线采样的需求。然而,DPO及其变体仍然对超参数敏感,并且容易出现不稳定性,尤其是在数学数据集上。我们认为这些问题源于对数似然损失函数中固有的单向似然导数负反馈。为了解决这个问题,我们提出了一种新的LLM对齐损失,它在优化过程中建立了一个稳定的双向负反馈(BNF)。我们提出的BNF损失消除了对成对对比损失的需求,并且不需要任何额外的可调超参数或成对偏好数据,从而将对齐流程简化为与监督微调一样简单。我们在两个具有挑战性的QA基准和四个推理基准上进行了广泛的实验。实验结果表明,BNF在QA基准上实现了与最佳方法相当的性能,同时其在四个推理基准上的性能下降明显低于最佳方法,从而在价值对齐和推理能力之间取得了更好的平衡。此外,我们进一步验证了BNF在非成对数据集上的性能,并对不同偏好优化方法中的对数似然和logit偏移进行了深入分析。

🔬 方法详解

问题定义:现有基于偏好优化的LLM对齐方法,如DPO,在数学等复杂数据集上表现出不稳定性和对超参数的敏感性。这些方法依赖于单向的负反馈机制,即只惩罚模型对非偏好答案的预测,而对偏好答案的预测不做约束,导致模型容易过拟合偏好数据,泛化能力下降。

核心思路:论文的核心思路是引入双向负反馈机制,同时对偏好答案和非偏好答案的预测进行约束。具体来说,不仅要降低非偏好答案的概率,还要提升偏好答案的概率,从而使模型更稳定,泛化能力更强。这种双向约束能够更有效地引导模型学习人类偏好,并避免模型过度拟合噪声数据。

技术框架:BNF方法不需要额外的奖励模型或在线采样过程,可以直接在监督微调的基础上进行。其整体流程与DPO类似,首先收集人类偏好数据,然后使用BNF损失函数对LLM进行微调。与DPO不同的是,BNF损失函数同时考虑了偏好答案和非偏好答案的对数似然,并引入了双向的负反馈机制。

关键创新:BNF方法最重要的创新点在于提出了双向负反馈损失函数。与DPO等方法使用的单向负反馈损失函数相比,BNF损失函数能够更有效地引导模型学习人类偏好,并提高模型的稳定性和泛化能力。此外,BNF方法不需要额外的超参数,简化了对齐流程。

关键设计:BNF损失函数的设计是关键。假设模型对偏好答案和非偏好答案的对数似然分别为 (l_w(x, y_c)) 和 (l_w(x, y_r)),则BNF损失函数可以表示为: [\mathcal{L}{BNF} = - \mathbb{E}{(x, y_c, y_r) \sim D} \left[ \log \sigma \left( \beta (l_w(x, y_c) - l_w(x, y_r))) + \gamma (l_w(x, y_c) + l_w(x, y_r)) \right) \right]] 其中 (\beta) 和 (\gamma) 是控制双向反馈强度的参数,(\sigma) 是 sigmoid 函数。论文中 (\beta) 和 (\gamma) 被设置为1,简化了超参数调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BNF在QA基准测试中取得了与现有最佳方法相当的性能。更重要的是,在四个推理基准测试中,BNF的性能下降明显低于现有最佳方法,表明BNF在价值对齐和推理能力之间取得了更好的平衡。此外,论文还验证了BNF在非成对数据集上的有效性,并对不同偏好优化方法的对数似然和logit偏移进行了深入分析。

🎯 应用场景

该研究成果可应用于各种需要LLM对齐的场景,例如对话系统、问答系统、文本生成等。通过使用BNF方法,可以更有效地将LLM与人类价值观对齐,提高LLM的安全性、可靠性和实用性。此外,BNF方法在数学等复杂数据集上的稳定性优势,使其在需要高精度推理的场景中具有更大的应用潜力。

📄 摘要(原文)

Direct Preference Optimization (DPO) has emerged as a more computationally efficient alternative to Reinforcement Learning from Human Feedback (RLHF) with Proximal Policy Optimization (PPO), eliminating the need for reward models and online sampling. Despite these benefits, DPO and its variants remain sensitive to hyper-parameters and prone to instability, particularly on mathematical datasets. We argue that these issues arise from the unidirectional likelihood-derivative negative feedback inherent in the log-likelihood loss function. To address this, we propose a novel LLM alignment loss that establishes a stable Bidirectional Negative Feedback (BNF) during optimization. Our proposed BNF loss eliminates the need for pairwise contrastive losses and does not require any extra tunable hyper-parameters or pairwise preference data, streamlining the alignment pipeline to be as simple as supervised fine-tuning. We conduct extensive experiments across two challenging QA benchmarks and four reasoning benchmarks. The experimental results show that BNF achieves comparable performance to the best methods on QA benchmarks, while its performance decrease on the four reasoning benchmarks is significantly lower compared to the best methods, thus striking a better balance between value alignment and reasoning ability. In addition, we further validate the performance of BNF on non-pairwise datasets, and conduct in-depth analysis of log-likelihood and logit shifts across different preference optimization methods.