LRHP: Learning Representations for Human Preferences via Preference Pairs

作者: Chenglong Wang, Yang Gan, Yifu Huo, Yongyu Mu, Qiaozhi He, Murun Yang, Tong Xiao, Chunliang Zhang, Tongran Liu, Jingbo Zhu

分类: cs.CL, cs.AI

发布日期: 2024-10-06

💡 一句话要点

提出LRHP框架，通过偏好对学习人类偏好表征，提升下游任务性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 人类偏好学习 表征学习 偏好对 奖励建模 强化学习 人机交互 对比学习

📋 核心要点

现有方法将人类偏好编码为单一数值奖励，限制了偏好分析和更广泛应用。
LRHP框架通过偏好对学习人类偏好表征，构建更丰富和结构化的偏好信息。
实验表明，LRHP在偏好数据选择和偏好裕度预测任务中显著优于基线方法。

📝 摘要（中文）

为了改进人类偏好对齐训练，目前的研究已经开发了大量的偏好数据集，这些数据集包含标记为“偏好”或“不偏好”的偏好对。这些偏好对通常用于通过奖励建模将人类偏好编码为单个数值，作为来自人类反馈的强化学习（RLHF）中的奖励信号。然而，将这些人类偏好表示为数值会使偏好分析变得复杂，并限制了它们在RLHF之外的更广泛应用。与此相反，在这项工作中，我们引入了一种偏好表征学习任务，旨在构建更丰富和结构化的人类偏好表征。我们进一步开发了一个更具泛化性的框架，即通过偏好对学习人类偏好表征（LRHP），它超越了传统的奖励建模来解决这个任务。我们验证了偏好表征在两个下游任务中的效用：偏好数据选择和偏好裕度预测。基于表征中的人类偏好，我们在两个任务中都取得了强大的性能，显著优于基线。

🔬 方法详解

问题定义：现有基于人类反馈的强化学习（RLHF）方法通常将人类偏好简化为单一数值奖励信号，用于训练奖励模型。这种简化虽然方便了强化学习过程，但也损失了偏好信息的多样性和结构性，限制了对人类偏好更深入的理解和应用。因此，如何更有效地利用偏好对数据，学习到更丰富、更具结构化的人类偏好表征，是一个亟待解决的问题。

核心思路：LRHP的核心思路是将人类偏好学习视为一个表征学习问题，而非简单的奖励建模。通过直接学习偏好对的表征，保留了偏好之间的相对关系和细粒度差异。这种表征可以更好地捕捉人类偏好的复杂性，并为下游任务提供更丰富的信息。这样设计的目的是为了克服传统奖励建模方法的局限性，实现对人类偏好更全面、更灵活的利用。

技术框架：LRHP框架主要包含以下几个关键模块：1) 偏好对编码器：用于将输入的偏好对（例如，两个文本片段）编码成向量表示。可以使用预训练语言模型（如BERT、RoBERTa）作为编码器。2) 表征学习模块：该模块负责学习偏好对的表征。具体实现方式未知，但推测可能包含对比学习、度量学习等技术，以确保相似的偏好对在表征空间中距离更近，不相似的偏好对距离更远。3) 下游任务模块：利用学习到的偏好表征来解决具体的下游任务，例如偏好数据选择和偏好裕度预测。

关键创新：LRHP最重要的创新点在于将人类偏好学习从传统的奖励建模范式转变为表征学习范式。与现有方法相比，LRHP不再将偏好简化为单一数值，而是学习偏好对的向量表征，从而保留了偏好之间的相对关系和细粒度差异。这种表征学习方法为人类偏好的分析和应用提供了更大的灵活性和潜力。

关键设计：论文中未明确给出关键参数设置、损失函数、网络结构等技术细节。但可以推测，偏好对编码器可能采用微调的预训练语言模型，表征学习模块可能使用对比损失或三元组损失来优化表征空间，下游任务模块则根据具体任务的需求设计相应的网络结构和损失函数。具体的超参数设置和网络结构选择可能需要根据实际数据集和任务进行调整。

🖼️ 关键图片

📊 实验亮点

LRHP在偏好数据选择和偏好裕度预测两个下游任务中取得了显著的性能提升。具体的数据和提升幅度未知，但摘要中明确指出LRHP显著优于基线方法。这表明LRHP学习到的偏好表征能够有效地捕捉人类偏好的关键信息，并为下游任务提供有价值的信号。

🎯 应用场景

LRHP框架具有广泛的应用前景。例如，可以用于改进对话系统和文本生成模型的训练，使其更好地符合人类偏好。此外，还可以应用于推荐系统、信息检索等领域，提升用户体验和满意度。通过学习更丰富的人类偏好表征，LRHP有望推动人机协作和人工智能应用的进一步发展。

📄 摘要（原文）

To improve human-preference alignment training, current research has developed numerous preference datasets consisting of preference pairs labeled as "preferred" or "dispreferred". These preference pairs are typically used to encode human preferences into a single numerical value through reward modeling, which acts as a reward signal during reinforcement learning from human feedback (RLHF). However, representing these human preferences as a numerical value complicates the analysis of these preferences and restricts their broader applications other than RLHF. In contrast, in this work, we introduce a preference representation learning task that aims to construct a richer and more structured representation of human preferences. We further develop a more generalizable framework, Learning Representations for Human Preferences via preference pairs (namely LRHP), which extends beyond traditional reward modeling to tackle this task. We verify the utility of preference representations in two downstream tasks: preference data selection and preference margin prediction. Building upon the human preferences in representations, we achieve strong performance in both tasks, significantly outperforming baselines.

LRHP: Learning Representations for Human Preferences via Preference Pairs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理