No Preference Left Behind: Group Distributional Preference Optimization
作者: Binwei Yao, Zefan Cai, Yun-Shiuan Chuang, Shanglin Yang, Ming Jiang, Diyi Yang, Junjie Hu
分类: cs.CL
发布日期: 2024-12-28 (更新: 2025-05-13)
💡 一句话要点
提出GDPO以解决语言模型对群体偏好分布建模不足的问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 群体偏好建模 偏好优化 信念建模 语言模型对齐 多元偏好
📋 核心要点
- 现有偏好优化方法难以捕捉群体内部多元化的偏好分布,容易偏向主导偏好。
- GDPO通过引入信念概念,将语言模型与群体内的偏好分布对齐,实现更包容的对齐。
- 实验表明,GDPO能有效缩小与目标信念分布的对齐差距,优于现有方法。
📝 摘要(中文)
现有对齐方法,如直接偏好优化(DPO),试图引导模型反映人类偏好,但难以捕捉群体内分布式的多元偏好。这些方法通常偏向于主导偏好,忽略了意见的多样性,尤其是在出现冲突偏好时。为了解决这个问题,我们提出了群体分布偏好优化(GDPO),这是一个新的框架,通过结合塑造个体偏好的信念概念,使语言模型与群体内的偏好分布对齐。GDPO使用群体信念分布的统计估计来校准语言模型,并将模型与信念条件偏好对齐,提供了一个比传统方法更具包容性的对齐框架。在使用合成可控意见生成和真实电影评论数据集的实验中,我们表明DPO未能与目标信念分布对齐,而GDPO在训练过程中始终如一地缩小了这种对齐差距。此外,我们的评估指标表明,GDPO在与群体分布偏好对齐方面优于现有方法,标志着多元对齐的显著进步。
🔬 方法详解
问题定义:现有直接偏好优化(DPO)等方法在对齐语言模型时,无法有效捕捉群体内部的多元偏好分布。这些方法倾向于学习群体中的主流偏好,而忽略了少数派或不同意见,导致模型在处理群体偏好时表现出偏差。尤其是在存在冲突偏好时,这种问题会更加严重。
核心思路:GDPO的核心思路是将个体偏好与潜在的“信念”联系起来,认为个体的偏好是由其内在的信念所塑造的。通过对群体信念分布进行统计估计,GDPO能够更好地理解和建模群体内部的偏好差异。然后,GDPO将语言模型与信念条件下的偏好对齐,从而使模型能够更好地反映群体偏好的多样性。
技术框架:GDPO框架主要包含以下几个阶段:1) 信念估计:利用群体数据,估计群体内部的信念分布。这可以通过各种统计方法实现,例如聚类或概率模型。2) 偏好建模:基于估计的信念分布,对每个信念条件下的偏好进行建模。这可以通过条件概率模型或神经网络实现。3) 模型对齐:使用偏好数据和信念信息,对语言模型进行微调,使其能够更好地预测和生成符合特定信念的偏好。这通常使用一种改进的DPO损失函数来实现。
关键创新:GDPO最重要的创新在于其将信念引入到偏好建模中,从而能够更好地捕捉群体内部的偏好差异。与传统的偏好优化方法相比,GDPO不再简单地将群体偏好视为一个单一的分布,而是将其分解为多个信念条件下的偏好分布。这种方法能够更准确地反映群体偏好的复杂性,并避免了对少数派偏好的忽略。
关键设计:GDPO的关键设计包括:1) 信念表示:如何有效地表示个体的信念是一个重要问题。论文可能使用了例如one-hot编码或者embedding向量来表示信念。2) 信念估计方法:论文需要选择合适的统计方法来估计群体信念分布。3) 信念条件偏好建模:论文需要设计合适的模型来建模信念条件下的偏好。这可能涉及到条件概率模型或神经网络结构的设计。4) 损失函数设计:GDPO需要设计一种新的损失函数,以鼓励模型与信念条件下的偏好对齐。这可能涉及到对DPO损失函数的修改,以考虑信念信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在合成数据和真实电影评论数据集上,GDPO均优于DPO等基线方法。具体而言,GDPO能够更准确地对齐目标信念分布,显著降低了对齐差距。评估指标显示,GDPO在捕捉群体偏好分布方面取得了显著提升,证明了其在多元对齐方面的有效性。
🎯 应用场景
GDPO可应用于个性化推荐系统、群体决策支持系统、社交媒体内容生成等领域。通过更好地理解和建模群体偏好分布,GDPO能够为用户提供更符合其需求的个性化服务,并促进更公平、更包容的群体决策。该研究有助于提升人工智能系统在处理复杂社会偏好时的表现,并减少潜在的偏见。
📄 摘要(原文)
Preferences within a group of people are not uniform but follow a distribution. While existing alignment methods like Direct Preference Optimization (DPO) attempt to steer models to reflect human preferences, they struggle to capture the distributional pluralistic preferences within a group. These methods often skew toward dominant preferences, overlooking the diversity of opinions, especially when conflicting preferences arise. To address this issue, we propose Group Distributional Preference Optimization (GDPO), a novel framework that aligns language models with the distribution of preferences within a group by incorporating the concept of beliefs that shape individual preferences. GDPO calibrates a language model using statistical estimation of the group's belief distribution and aligns the model with belief-conditioned preferences, offering a more inclusive alignment framework than traditional methods. In experiments using both synthetic controllable opinion generation and real-world movie review datasets, we show that DPO fails to align with the targeted belief distributions, while GDPO consistently reduces this alignment gap during training. Moreover, our evaluation metrics demonstrate that GDPO outperforms existing approaches in aligning with group distributional preferences, marking a significant advance in pluralistic alignment.