DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning

📄 arXiv: 2510.02341v2 📥 PDF

作者: Yifan Wang, Bolian Li, Junlin Wu, Zhaoxuan Tan, Zheli Liu, Ruqi Zhang, Ananth Grama, Qingkai Zeng

分类: cs.CL, cs.AI

发布日期: 2025-09-27 (更新: 2026-01-30)

🔗 代码/项目: GITHUB


💡 一句话要点

DRIFT:利用真实用户不满意信号进行偏好学习,提升大语言模型性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 偏好学习 用户不满意信号 大语言模型 迭代训练 动态采样

📋 核心要点

  1. 现有偏好学习方法依赖昂贵的人工标注或假设存在大量积极反馈,无法有效利用真实世界中大量存在的用户不满意信号。
  2. DRIFT方法以真实用户不满意信号为训练基础,并从不断演进的策略中动态采样积极样本,从而更有效地进行偏好学习。
  3. 实验结果表明,DRIFT在多个数据集上显著优于现有方法,尤其是在大规模模型上,并且能够保留模型的探索能力。

📝 摘要(中文)

本文提出了一种名为DRIFT(Dissatisfaction-Refined Iterative Preference Training,不满意度精炼的迭代偏好训练)的方法,旨在利用真实世界大语言模型部署中大量存在的隐式用户不满意(DSAT)信号进行偏好学习。与依赖昂贵的人工标注或假设大量积极反馈的现有方法不同,DRIFT以真实世界的DSAT信号为基础,并从不断演进的策略中动态采样积极样本。在真实世界的WildFeedback数据集和合成的UltraFeedback数据集上的实验结果表明,DRIFT训练的模型在WildBench任务得分上实现了高达+6.23% (7B) / +7.61% (14B)的提升,在AlpacaEval2胜率上实现了高达+8.95% (7B) / +12.29% (14B)的提升,优于迭代DPO和SPIN等强基线方法。更大规模的模型上,DRIFT的改进尤为显著:使用DRIFT训练的14B模型在WildBench上超越了GPT-4o-mini。进一步分析表明,DRIFT还保留了探索能力,产生了更多样化的高奖励解决方案,而不是收敛到狭窄的子集。理论上,本文证明了这种设计保留了偏好裕度,避免了梯度退化。这些结果表明,DRIFT是一种有效且可扩展的真实世界后训练方法,可以利用最丰富和信息量最大的信号。

🔬 方法详解

问题定义:现有偏好学习方法在真实世界场景中面临数据稀疏性和标注成本高昂的问题。用户通常更倾向于表达不满,而非明确的满意,导致积极反馈数据匮乏。现有方法难以有效利用这些隐式的不满意信号,限制了模型性能的提升。

核心思路:DRIFT的核心思路是利用真实世界中大量存在的用户不满意(DSAT)信号作为主要的训练信号。通过将不满意信号作为负样本,并从模型自身生成的反馈中动态采样正样本,从而构建更有效的偏好学习数据集。这种方法避免了对大量人工标注的依赖,并能够更好地适应真实世界的数据分布。

技术框架:DRIFT的整体框架是一个迭代训练过程。首先,使用初始模型生成反馈。然后,利用用户不满意信号作为负样本,并从模型生成的反馈中采样正样本,构建训练数据集。接着,使用这个数据集训练模型,并重复这个过程,不断提升模型的性能。主要模块包括:1) 反馈生成模块;2) 负样本(DSAT)收集模块;3) 正样本动态采样模块;4) 模型训练模块。

关键创新:DRIFT的关键创新在于其利用用户不满意信号作为主要训练信号,并动态采样正样本。这与传统的偏好学习方法依赖人工标注或假设大量积极反馈不同。通过这种方式,DRIFT能够更有效地利用真实世界的数据,并避免了对大量人工标注的依赖。

关键设计:DRIFT的关键设计包括:1) 正样本的动态采样策略:根据模型生成的反馈质量动态调整采样概率,鼓励模型探索更多样化的解决方案;2) 损失函数的设计:采用合适的损失函数,例如DPO的变体,以最大化正样本和负样本之间的偏好裕度,并避免梯度退化;3) 迭代训练的策略:通过多次迭代训练,不断提升模型的性能,并保留模型的探索能力。

📊 实验亮点

DRIFT在真实世界的WildFeedback数据集和合成的UltraFeedback数据集上取得了显著的性能提升。在WildBench任务得分上,7B模型提升了+6.23%,14B模型提升了+7.61%。在AlpacaEval2胜率上,7B模型提升了+8.95%,14B模型提升了+12.29%。更重要的是,使用DRIFT训练的14B模型在WildBench上超越了GPT-4o-mini,表明了该方法在大规模模型上的有效性。

🎯 应用场景

DRIFT方法可广泛应用于各种需要偏好学习的大语言模型应用场景,例如对话式AI系统、代码生成助手等。通过利用真实用户的不满意信号,可以更有效地提升模型的性能,使其更好地满足用户的需求。该方法降低了对人工标注的依赖,具有重要的实际应用价值和商业潜力,并可能推动人机交互技术的进一步发展。

📄 摘要(原文)

Real-world large language model deployments (e.g., conversational AI systems, code generation assistants) naturally generate abundant implicit user dissatisfaction (DSAT) signals, as users iterate toward better answers through refinements, corrections, and expressed preferences, while explicit satisfaction (SAT) feedback is scarce. Existing preference learning approaches are poorly aligned with this data profile, as they rely on costly human annotations or assume plentiful positive responses. In this paper, we introduce \textbf{DRIFT} (\textbf{D}issatisfaction-\textbf{R}efined \textbf{I}terative pre\textbf{F}erence \textbf{T}raining), which anchors training on real-world DSAT signals and samples positives dynamically from the evolving policy. Empirically, DRIFT models trained on real-world \textit{WildFeedback} datasets and synthetic \textit{UltraFeedback} datasets achieve up to +6.23\% (7B) / +7.61\% (14B) on WildBench Task Score and up to +8.95\% (7B) / +12.29\% (14B) on AlpacaEval2 win rate over base models, outperforming strong baseline methods such as iterative DPO and SPIN. At larger scales, the improvements are particularly pronounced: 14B models trained with DRIFT surpass GPT-4o-mini on WildBench. Further analysis shows that DRIFT also preserves exploratory capacity, yielding more diverse high-reward solutions rather than collapsing to narrow subsets. Theoretically, we demonstrate that this design preserves preference margins and avoids the gradient degeneration. These results show that DRIFT is an effective and scalable recipe for real-world post-training that leverages the most abundant and informative signal. The code and data are available at https://github.com/cacayaya/DRIFT.git.