Right Now, Wrong Then: Non-Stationary Direct Preference Optimization under Preference Drift

作者: Seongho Son, William Bankes, Sayak Ray Chowdhury, Brooks Paige, Ilija Bogunovic

分类: cs.LG

发布日期: 2024-07-26 (更新: 2026-01-12)

备注: 31 pages, 10 figures. Accepted to ICML 2025

💡 一句话要点

提出NS-DPO，解决LLM在偏好漂移下的非平稳直接偏好优化问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 偏好优化 偏好漂移 非平稳学习 直接偏好优化

📋 核心要点

现有LLM偏好优化算法忽略了时间偏好漂移，导致模型与用户意图的对齐出现问题。
NS-DPO通过动态Bradley-Terry模型建模时间相关的奖励函数，并引入折扣参数进行指数加权，关注时间相关数据。
实验表明，NS-DPO在偏好漂移下微调的LLM表现稳健，显著优于基线算法，且不牺牲平稳情况下的性能。

📝 摘要（中文）

当前的大型语言模型(LLM)偏好优化算法没有考虑到时间偏好漂移，这可能导致严重的错位。为了解决这个限制，我们提出了非平稳直接偏好优化(NS-DPO)，它使用动态Bradley-Terry模型对时间相关的奖励函数进行建模。NS-DPO通过在损失函数中引入一个折扣参数来提供计算效率高的解决方案，该参数用于指数加权，从而将学习按比例集中在更多时间相关的数据点上。我们在偏好漂移的确切性质未知的一般设置下，从理论上分析了NS-DPO的收敛性，提供了由非平稳偏好引起的估计误差和遗憾的上界。最后，我们证明了NS-DPO在漂移偏好下微调LLM的有效性。通过引入各种程度的偏好漂移的场景，使用流行的LLM奖励模型和数据集，我们表明，NS-DPO微调的LLM在非平稳情况下保持稳健，显著优于忽略时间偏好变化的基线算法，而不会牺牲在平稳情况下的性能。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在面对用户偏好随时间变化（即偏好漂移）时，现有直接偏好优化（DPO）算法无法有效适应的问题。现有DPO方法假设偏好是静态的，忽略了现实世界中用户需求和价值观可能随时间演变的现象，导致模型在长期使用中出现错位。

核心思路：NS-DPO的核心思路是将奖励函数建模为时间相关的函数，并利用动态Bradley-Terry模型来捕捉偏好漂移。通过引入一个折扣参数，NS-DPO能够对不同时间点的数据赋予不同的权重，更关注近期的数据，从而使模型能够更快地适应新的偏好。这种方法的核心在于假设近期的偏好数据更能反映当前用户的真实意图。

技术框架：NS-DPO的技术框架主要包括以下几个步骤：1) 使用动态Bradley-Terry模型对时间相关的奖励函数进行建模；2) 在DPO损失函数中引入一个折扣参数，用于指数加权，使模型更关注近期的数据；3) 使用优化算法（如Adam）对模型进行微调，使其适应新的偏好。整体流程是在标准DPO的基础上，增加了一个时间衰减的权重机制。

关键创新：NS-DPO最关键的创新在于它能够处理非平稳的偏好数据。与传统的DPO方法相比，NS-DPO能够更好地适应用户偏好的变化，从而提高模型在长期使用中的性能。此外，NS-DPO还提供了理论分析，证明了其在非平稳环境下的收敛性。

关键设计：NS-DPO的关键设计在于折扣参数的选择和动态Bradley-Terry模型的应用。折扣参数决定了模型对历史数据的遗忘速度，需要根据具体的应用场景进行调整。动态Bradley-Terry模型则提供了一种有效的方式来建模时间相关的奖励函数。损失函数是标准DPO损失函数的加权版本，权重由折扣参数决定。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在引入不同程度偏好漂移的场景下，NS-DPO微调的LLM显著优于基线算法。具体来说，NS-DPO在非平稳情况下保持了更好的鲁棒性，并且没有牺牲在平稳情况下的性能。这些结果验证了NS-DPO在处理偏好漂移问题上的有效性。

🎯 应用场景

NS-DPO可应用于需要长期与用户交互的LLM应用，例如智能助手、聊天机器人和内容推荐系统。通过适应用户偏好的变化，NS-DPO可以提高用户满意度，并减少模型与用户意图之间的错位。该方法还有助于构建更加个性化和动态的AI系统，更好地满足用户的需求。

📄 摘要（原文）

Current Large Language Model (LLM) preference optimization algorithms do not account for temporal preference drift, which can lead to severe misalignment. To address this limitation, we propose Non-Stationary Direct Preference Optimisation (NS-DPO) that models time-dependent reward functions with a Dynamic Bradley-Terry model. NS-DPO proposes a computationally efficient solution by introducing only a single discount parameter in the loss function, which is used for exponential weighting that proportionally focuses learning on more time-relevant datapoints. We theoretically analyze the convergence of NS-DPO in a general setting where the exact nature of the preference drift is not known, providing upper bounds on the estimation error and regret caused by non-stationary preferences. Finally, we demonstrate the effectiveness of NS-DPO for fine-tuning LLMs under drifting preferences. Using scenarios where various levels of preference drift is introduced, with popular LLM reward models and datasets, we show that NS-DPO fine-tuned LLMs remain robust under non-stationarity, significantly outperforming baseline algorithms that ignore temporal preference changes, without sacrificing performance in stationary cases.

Right Now, Wrong Then: Non-Stationary Direct Preference Optimization under Preference Drift

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理