Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization

作者: Noam Razin, Sadhika Malladi, Adithya Bhaskar, Danqi Chen, Sanjeev Arora, Boris Hanin

分类: cs.LG, cs.AI, cs.CL, stat.ML

发布日期: 2024-10-11 (更新: 2025-04-27)

备注: Accepted to ICLR 2025; Code available at https://github.com/princeton-nlp/unintentional-unalignment

💡 一句话要点

揭示DPO中似然位移现象，提出CHES指标以缓解非预期对齐问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 直接偏好优化 似然位移 语言模型对齐 中心化隐藏嵌入相似度 非预期对齐

📋 核心要点

DPO等偏好优化方法在对齐语言模型时，存在偏好响应概率降低的“似然位移”问题。
论文提出中心化隐藏嵌入相似度(CHES)指标，用于衡量偏好相似性并识别导致位移的样本。
实验表明，过滤掉高CHES值的样本可以有效缓解非预期对齐问题，提升模型安全性。

📝 摘要（中文）

直接偏好优化(DPO)及其变体越来越多地被用于将语言模型与人类偏好对齐。尽管这些方法旨在训练模型更频繁地生成偏好响应，但先前的工作观察到，偏好响应的可能性在训练过程中经常降低。本文揭示了这种违反直觉的现象（我们称之为似然位移）的原因和影响。我们证明了似然位移可能是灾难性的，会将概率质量从偏好响应转移到具有相反含义的响应。例如，训练模型偏好“否”而不是“从不”会急剧增加“是”的概率。此外，当对齐模型以拒绝不安全的提示时，我们表明这种位移可能会无意中导致不对齐，即将概率质量从首选的拒绝响应转移到有害响应（例如，将Llama-3-8B-Instruct的拒绝率从74.4%降低到33.4%）。我们从理论上描述了似然位移是由偏好引起的相似嵌入驱动的，这是通过中心化隐藏嵌入相似度(CHES)分数来衡量的。在实验上，CHES分数能够识别哪些训练样本对给定数据集中的似然位移贡献最大。过滤掉这些样本有效地缓解了我们实验中的非预期不对齐。更广泛地说，我们的结果强调了使用具有足够不同偏好的数据进行管理的重要性，我们认为CHES分数可能证明是有价值的。

🔬 方法详解

问题定义：论文旨在解决直接偏好优化(DPO)训练中出现的“似然位移”问题。具体而言，DPO方法本应提升模型生成偏好响应的概率，但实际训练中却观察到偏好响应的概率反而降低，甚至导致模型产生与人类偏好相反的输出。现有方法的痛点在于缺乏对这种现象的理解和有效缓解手段，可能导致模型在安全性和可靠性方面出现问题。

核心思路：论文的核心思路是，似然位移的根本原因是训练数据中存在偏好相似的样本，这些样本导致模型在嵌入空间中难以区分偏好和非偏好响应，从而错误地转移了概率质量。为了量化这种相似性，论文提出了中心化隐藏嵌入相似度(CHES)指标。通过识别并过滤掉高CHES值的样本，可以减少似然位移，从而改善模型的对齐效果。

技术框架：论文没有提出全新的模型架构，而是侧重于分析和改进现有的DPO训练流程。主要流程包括：1) 使用DPO训练语言模型；2) 计算训练样本的CHES分数；3) 根据CHES分数对训练样本进行排序；4) 选择性地过滤掉高CHES值的样本；5) 使用过滤后的数据集重新训练模型。

关键创新：论文最重要的技术创新点在于提出了CHES指标，用于量化训练样本中偏好相似性。CHES指标通过计算模型隐藏层嵌入的中心化余弦相似度，能够有效地识别导致似然位移的样本。与现有方法相比，CHES指标提供了一种可解释且易于实现的手段，用于诊断和缓解DPO训练中的对齐问题。

关键设计：CHES分数的计算公式为：CHES(x, y, z) = cos(h(x) - E[h(x)]), h(y) - E[h(y)]), 其中x是prompt，y是偏好响应，z是非偏好响应，h(.)是模型的隐藏层嵌入，E[h(x)]是所有prompt嵌入的均值。论文使用Llama-3-8B-Instruct模型进行实验，并采用不同的过滤策略（例如，过滤掉CHES分数最高的20%的样本）来评估CHES指标的有效性。

📊 实验亮点

实验结果表明，使用CHES指标过滤训练数据可以显著降低Llama-3-8B-Instruct模型的非预期不对齐现象。例如，在拒绝不安全提示的任务中，过滤掉高CHES值的样本后，模型的拒绝率从33.4%提升至接近原始水平，有效缓解了似然位移带来的负面影响。这证明了CHES指标在改善DPO训练效果方面的有效性。

🎯 应用场景

该研究成果可应用于提升大型语言模型在安全性、可靠性和可控性方面的性能。通过使用CHES指标筛选训练数据，可以减少模型产生有害或不符合人类价值观的输出，从而提高用户信任度和满意度。此外，该方法还可以应用于其他偏好学习场景，例如推荐系统和机器人控制。

📄 摘要（原文）

Direct Preference Optimization (DPO) and its variants are increasingly used for aligning language models with human preferences. Although these methods are designed to teach a model to generate preferred responses more frequently relative to dispreferred responses, prior work has observed that the likelihood of preferred responses often decreases during training. The current work sheds light on the causes and implications of this counter-intuitive phenomenon, which we term likelihood displacement. We demonstrate that likelihood displacement can be catastrophic, shifting probability mass from preferred responses to responses with an opposite meaning. As a simple example, training a model to prefer $\texttt{No}$ over $\texttt{Never}$ can sharply increase the probability of $\texttt{Yes}$. Moreover, when aligning the model to refuse unsafe prompts, we show that such displacement can unintentionally lead to unalignment, by shifting probability mass from preferred refusal responses to harmful responses (e.g., reducing the refusal rate of Llama-3-8B-Instruct from 74.4% to 33.4%). We theoretically characterize that likelihood displacement is driven by preferences that induce similar embeddings, as measured by a centered hidden embedding similarity (CHES) score. Empirically, the CHES score enables identifying which training samples contribute most to likelihood displacement in a given dataset. Filtering out these samples effectively mitigated unintentional unalignment in our experiments. More broadly, our results highlight the importance of curating data with sufficiently distinct preferences, for which we believe the CHES score may prove valuable.

Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理