Meet Dynamic Individual Preferences: Resolving Conflicting Human Value with Paired Fine-Tuning
作者: Shanyong Wang, Shuhang Lin, Yining Zhao, Xi Zhu, Yongfeng Zhang
分类: cs.CL
发布日期: 2026-04-14
备注: 20 pages, 13 figures
💡 一句话要点
提出Preference-Paired Fine-Tuning框架,解决LLM对动态个体偏好对齐难题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 个体偏好对齐 大型语言模型 成对微调 偏好学习 冲突偏好 个性化推荐 动态偏好
📋 核心要点
- 现有大语言模型难以适应个体偏好,个体偏好具有多样性和动态性,对齐存在挑战。
- 提出Preference-Paired Fine-Tuning (PFT)框架,旨在解决LLM与矛盾和动态个体偏好对齐的问题。
- 实验表明,PFT在多项选择分类和开放式生成任务中均优于现有方法,尤其在处理冲突偏好时。
📝 摘要(中文)
大型语言模型(LLMs)在与通用人类偏好对齐方面取得了显著进展。然而,如何使LLMs适应个体偏好仍然是一个重大挑战,因为这些偏好不仅多样化而且是动态变化的。本文介绍了一种新颖的框架,即Preference-Paired Fine-Tuning (PFT),旨在使模型与矛盾和不断演变的个体偏好对齐。我们提出了一个新的数据集,Value Conflict Dilemma (VCD),其中包含涉及冲突的人类偏好的场景,从而有助于评估我们的方法。实验表明,PFT优于单一偏好训练方法,在多项选择分类任务中达到高达96.6%的准确率,并在开放式生成任务中获得最高的8.69分。PFT还显示出比DPO、SFT和一些传统训练方法显著的改进,尤其是在处理冲突偏好时。此外,在有限的用户历史数据下,模型可以快速推断偏好向量,与单一偏好模型相比,在用户特定偏好对齐方面实现了44.76%的改进。
🔬 方法详解
问题定义:现有的大型语言模型在对齐通用人类偏好方面取得了进展,但如何使模型适应个体偏好仍然是一个挑战。个体偏好不仅多样,而且会随着时间推移而动态变化,甚至存在冲突。现有的方法难以有效地捕捉和适应这些动态的、冲突的个体偏好,导致模型在个性化应用中的表现不佳。
核心思路:PFT的核心思路是通过成对的微调来学习和适应个体偏好。具体来说,PFT不是简单地使用单一的偏好信号进行训练,而是利用包含冲突偏好的数据,通过比较和对比不同偏好下的模型行为,使模型能够理解和区分这些偏好。这种成对学习的方式能够更好地捕捉个体偏好之间的细微差别和潜在冲突,从而提高模型对个体偏好的适应能力。
技术框架:PFT框架主要包含以下几个阶段:1) 数据收集:构建包含冲突偏好的数据集,例如VCD数据集。2) 偏好向量推断:利用有限的用户历史数据,快速推断用户的偏好向量。3) 成对微调:使用成对的偏好数据对模型进行微调,使模型能够区分和适应不同的偏好。4) 模型评估:使用多项选择分类和开放式生成等任务评估模型在个体偏好对齐方面的性能。
关键创新:PFT的关键创新在于其成对微调的思想。与传统的单一偏好训练方法不同,PFT通过比较和对比不同偏好下的模型行为,使模型能够更好地理解和区分这些偏好。此外,PFT还提出了一个新的数据集VCD,用于评估模型在处理冲突偏好方面的能力。
关键设计:PFT的关键设计包括:1) 使用成对的偏好数据进行微调,例如,对于一个包含两种冲突偏好的样本,PFT会同时训练模型使其更符合一种偏好,同时更不符合另一种偏好。2) 设计合适的损失函数,例如,可以使用对比损失或排序损失来鼓励模型区分不同的偏好。3) 使用有限的用户历史数据快速推断用户的偏好向量,例如,可以使用基于注意力机制的模型来学习用户行为与偏好之间的关系。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PFT在多项选择分类任务中达到了96.6%的准确率,在开放式生成任务中获得了8.69的最高分,显著优于DPO、SFT等基线方法。此外,在有限的用户历史数据下,PFT在用户特定偏好对齐方面实现了44.76%的提升,表明其能够快速适应个体偏好。
🎯 应用场景
该研究成果可应用于个性化推荐系统、智能对话系统、定制化内容生成等领域。通过更好地理解和适应个体偏好,可以提升用户体验,提高用户满意度,并为用户提供更加个性化的服务。未来,该方法有望应用于更广泛的人工智能应用场景,例如个性化教育、健康管理等。
📄 摘要(原文)
Recent advances in large language models (LLMs) have significantly improved the alignment of models with general human preferences. However, a major challenge remains in adapting LLMs to individual preferences, which are not only diverse but also dynamic. In this paper, we introduce a novel framework, Preference-Paired Fine-Tuning (PFT), designed to align models with contradictory and evolving individual preferences. We present a new dataset, Value Conflict Dilemma (VCD), which includes scenarios that involve conflicting human preferences, facilitating the evaluation of our approach. Our experiments demonstrate that PFT outperforms single-preference training methods, achieving up to 96.6% accuracy in multi-choice classification tasks and the highest open-ended generation score of 8.69. PFT also shows significant improvements over DPO, SFT and some traditional training methods, especially when handling conflicting preferences. Additionally, with limited user history data, models can inferring preference vector rapidly, achieving a 44.76% improvement in user-specific preference alignment in comparison to single-preference models.