Modulated Intervention Preference Optimization (MIPO): Keep the Easy, Refine the Difficult

📄 arXiv: 2409.17545v2 📥 PDF

作者: Cheolhun Jang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-09-26 (更新: 2024-09-27)

备注: 8pages, submitted to AAAI 2025


💡 一句话要点

提出MIPO,通过调节干预度优化偏好,提升模型对齐效果。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 偏好优化 强化学习 模型对齐 自适应调节 语言模型

📋 核心要点

  1. 现有偏好优化方法依赖于正则化项,限制策略模型偏离参考模型,但当参考模型未对齐时会阻碍优化。
  2. MIPO的核心思想是根据数据与参考模型的对齐程度,动态调节参考模型的干预程度,实现更灵活的优化。
  3. 实验结果表明,MIPO在Alpaca Eval 2.0和MT-Bench上,使用Mistral-7B和Llama3-8B模型时,均优于DPO。

📝 摘要(中文)

偏好优化方法通常以一个训练良好的SFT模型作为参考模型开始训练。在RLHF和DPO中,偏好优化过程中使用正则化项,以防止策略模型偏离参考模型的分布过远,从而避免生成异常响应。当参考模型已经与给定数据良好对齐或只需要轻微调整时,这种方法可以产生一个良好对齐的模型。然而,如果参考模型与给定数据未对齐,并且需要显著偏离其当前状态,则正则化项实际上可能会阻碍模型对齐。本研究提出了调制干预偏好优化(MIPO)来解决这个问题。MIPO根据给定数据与参考模型的对齐程度来调节来自参考模型的干预程度。如果数据对齐良好,则增加干预以防止策略模型与参考模型产生显著差异。相反,如果对齐较差,则减少干预以促进更广泛的训练。我们使用Mistral-7B和Llama3-8B在Alpaca Eval 2.0和MT-Bench中比较了MIPO和DPO的性能。实验结果表明,MIPO在各种评估场景中始终优于DPO。

🔬 方法详解

问题定义:现有偏好优化方法,如DPO,在训练过程中使用正则化项来约束策略模型,使其不偏离参考模型过远。这种方法在参考模型与目标数据对齐较好时有效。然而,当参考模型与目标数据存在较大偏差时,强行约束反而会限制模型的学习能力,导致对齐效果不佳。因此,如何根据参考模型的质量动态调整约束强度是一个关键问题。

核心思路:MIPO的核心思路是根据参考模型与给定数据的对齐程度,自适应地调节参考模型的干预程度。当参考模型与数据对齐良好时,增加干预,防止策略模型过度偏离,保持模型的稳定性。当参考模型与数据对齐较差时,减少干预,允许策略模型进行更自由的探索,从而更好地适应目标数据。

技术框架:MIPO的整体框架与DPO类似,仍然是基于pairwise preference data进行优化。主要区别在于损失函数的设计。MIPO引入了一个调制因子,该因子根据参考模型与数据的对齐程度动态调整正则化项的权重。具体来说,可以使用一个指标来衡量参考模型对给定输入的响应质量,例如困惑度或奖励值。然后,基于该指标计算调制因子,并将其应用于DPO的损失函数中。

关键创新:MIPO的关键创新在于引入了自适应的干预调节机制。与DPO等方法采用固定强度的正则化项不同,MIPO能够根据参考模型的质量动态调整正则化强度,从而在模型稳定性和学习能力之间取得更好的平衡。这种自适应的调节机制使得MIPO能够更好地应对参考模型与目标数据存在较大偏差的情况。

关键设计:MIPO的关键设计在于调制因子的计算方式。一种可能的实现方式是使用参考模型对给定输入的困惑度作为对齐程度的指标。困惑度越低,表示参考模型对该输入的理解越好,对齐程度越高,因此可以增加干预。反之,困惑度越高,表示参考模型对该输入的理解较差,对齐程度越低,因此可以减少干预。调制因子可以设计为困惑度的单调递减函数,例如sigmoid函数。此外,损失函数需要进行相应的修改,将调制因子乘以DPO的正则化项。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MIPO在Alpaca Eval 2.0和MT-Bench上均优于DPO。具体而言,在使用Mistral-7B和Llama3-8B模型时,MIPO在多个指标上取得了显著提升。这表明MIPO能够有效地解决参考模型与目标数据不对齐的问题,提升模型的对齐效果和泛化能力。MIPO的性能提升证明了自适应干预调节机制的有效性。

🎯 应用场景

MIPO可应用于各种需要偏好优化的场景,尤其是在参考模型质量不高或与目标数据存在较大偏差的情况下。例如,在定制化语言模型训练、对话系统优化、以及机器人行为学习等领域,MIPO能够提升模型对齐效果,生成更符合人类偏好的结果。该方法具有广泛的应用前景,能够有效提升AI系统的用户体验。

📄 摘要(原文)

Preference optimization methods typically begin training with a well-trained SFT model as a reference model. In RLHF and DPO, a regularization term is used during the preference optimization process to prevent the policy model from deviating too far from the reference model's distribution, thereby avoiding the generation of anomalous responses. When the reference model is already well-aligned with the given data or only requires slight adjustments, this approach can produce a well-aligned model. However, if the reference model is not aligned with the given data and requires significant deviation from its current state, a regularization term may actually hinder the model alignment. In this study, we propose \textbf{Modulated Intervention Preference Optimization (MIPO)} to address this issue. MIPO modulates the degree of intervention from the reference model based on how well the given data is aligned with it. If the data is well-aligned, the intervention is increased to prevent the policy model from diverging significantly from reference model. Conversely, if the alignment is poor, the interference is reduced to facilitate more extensive training. We compare the performance of MIPO and DPO using Mistral-7B and Llama3-8B in Alpaca Eval 2.0 and MT-Bench. The experimental results demonstrate that MIPO consistently outperforms DPO across various evaluation scenarios.