Distributional Preference Learning: Understanding and Accounting for Hidden Context in RLHF

📄 arXiv: 2312.08358v2 📥 PDF

作者: Anand Siththaranjan, Cassidy Laidlaw, Dylan Hadfield-Menell

分类: cs.LG, cs.AI, stat.ML

发布日期: 2023-12-13 (更新: 2024-04-17)

备注: Presented at ICLR 2024

🔗 代码/项目: GITHUB


💡 一句话要点

针对RLHF中隐藏上下文问题,提出分布式的偏好学习方法DPL,提升模型鲁棒性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 人类反馈 偏好学习 隐藏上下文 分布估计 大型语言模型 模型安全

📋 核心要点

  1. 现有RLHF方法在处理具有隐藏上下文的不完整数据时存在不足,导致模型学习的偏好与预期不符。
  2. 论文提出分布式的偏好学习(DPL)方法,通过估计每个备选项得分值的分布来更好地解释隐藏上下文。
  3. 实验表明,DPL能有效识别数据中的隐藏上下文,显著降低LLM聊天机器人的越狱漏洞,提升模型安全性。

📝 摘要(中文)

在实践中,从人类反馈中学习偏好依赖于具有隐藏上下文的不完整数据。隐藏上下文指的是影响接收到的反馈但未在用于训练偏好模型的数据中表示的数据。这涵盖了常见的数据收集问题,例如人类标注者具有不同的偏好、导致看似非理性行为的认知过程以及根据不同标准组合标记的数据。我们证明了偏好学习的标准应用,包括从人类反馈中进行强化学习(RLHF),隐式地根据一种称为Borda计数的著名投票规则对隐藏上下文进行聚合。我们表明,这会产生与通过期望效用隐式聚合的其他方法非常不同的反直觉结果。此外,我们的分析形式化了具有不同价值观的用户进行偏好学习的方式,这种方式默认地实现了一种社会选择函数。这一结果的一个关键含义是,标注者有动机错误报告他们的偏好,以影响学习到的模型,从而导致RLHF部署中的漏洞。作为缓解这些问题的一步,我们引入了一类称为分布式偏好学习(DPL)的方法。DPL方法估计每个备选项的可能得分值的分布,以便更好地解释隐藏上下文。实验结果表明,将DPL应用于LLM聊天机器人的RLHF可以识别数据中的隐藏上下文,并显着降低后续的越狱漏洞。

🔬 方法详解

问题定义:论文旨在解决RLHF中由于隐藏上下文导致模型学习到偏差偏好的问题。隐藏上下文指的是影响人类反馈但未被模型显式建模的因素,例如标注者的个人偏好、认知偏差或不同的标注标准。现有RLHF方法通常假设数据是独立同分布的,忽略了这些隐藏上下文,导致模型学习到的偏好是所有上下文的简单平均,可能产生反直觉的结果,甚至被恶意利用。

核心思路:论文的核心思路是将偏好学习建模为一个分布估计问题,而不是一个点估计问题。DPL方法不再是为每个备选项预测一个单一的得分,而是预测一个得分的分布,从而捕捉隐藏上下文带来的不确定性。通过对得分分布进行建模,DPL可以更好地理解不同上下文下的偏好,并避免简单平均带来的偏差。

技术框架:DPL方法的核心框架是在标准的偏好学习流程中引入分布估计模块。具体来说,对于每个备选项,DPL模型预测一个参数化的得分分布(例如,高斯分布),而不是一个单一的得分。模型的训练目标是最大化观测到的偏好数据的似然函数,同时对分布的参数进行正则化。在推理阶段,可以使用多种策略来利用学习到的得分分布,例如,计算期望效用、选择最保守的选项或进行风险敏感的决策。

关键创新:论文的关键创新在于将偏好学习问题从点估计转化为分布估计,从而能够显式地建模隐藏上下文带来的不确定性。与传统的RLHF方法相比,DPL方法能够更好地理解不同上下文下的偏好,并避免简单平均带来的偏差。此外,论文还分析了传统RLHF方法隐式地使用了Borda计数投票规则,揭示了其潜在的缺陷。

关键设计:DPL方法的关键设计包括:(1) 选择合适的得分分布类型(例如,高斯分布、Beta分布等);(2) 设计有效的正则化项,以避免过拟合和保证分布的合理性;(3) 选择合适的推理策略,以利用学习到的得分分布进行决策。论文中使用了高斯分布来建模得分,并使用L2正则化来约束分布的参数。在推理阶段,使用了期望效用作为决策标准。

📊 实验亮点

实验结果表明,将DPL应用于LLM聊天机器人的RLHF可以显著降低模型的越狱漏洞。具体来说,DPL方法在越狱攻击下的成功率比基线方法降低了约20%-30%,表明DPL能够更好地识别和防御恶意攻击,提升模型的安全性。此外,实验还验证了DPL能够更好地捕捉数据中的隐藏上下文,学习到更符合人类意图的偏好。

🎯 应用场景

DPL方法可广泛应用于需要从人类反馈中学习偏好的场景,例如:大型语言模型的对齐、推荐系统、机器人控制等。通过考虑隐藏上下文,DPL可以提升模型的鲁棒性、公平性和安全性,避免模型学习到有偏差或有害的偏好。尤其是在涉及用户价值观差异或存在对抗性攻击的场景下,DPL的优势更为明显。

📄 摘要(原文)

In practice, preference learning from human feedback depends on incomplete data with hidden context. Hidden context refers to data that affects the feedback received, but which is not represented in the data used to train a preference model. This captures common issues of data collection, such as having human annotators with varied preferences, cognitive processes that result in seemingly irrational behavior, and combining data labeled according to different criteria. We prove that standard applications of preference learning, including reinforcement learning from human feedback (RLHF), implicitly aggregate over hidden contexts according to a well-known voting rule called Borda count. We show this can produce counter-intuitive results that are very different from other methods which implicitly aggregate via expected utility. Furthermore, our analysis formalizes the way that preference learning from users with diverse values tacitly implements a social choice function. A key implication of this result is that annotators have an incentive to misreport their preferences in order to influence the learned model, leading to vulnerabilities in the deployment of RLHF. As a step towards mitigating these problems, we introduce a class of methods called distributional preference learning (DPL). DPL methods estimate a distribution of possible score values for each alternative in order to better account for hidden context. Experimental results indicate that applying DPL to RLHF for LLM chatbots identifies hidden context in the data and significantly reduces subsequent jailbreak vulnerability. Our code and data are available at https://github.com/cassidylaidlaw/hidden-context