Factored Causal Representation Learning for Robust Reward Modeling in RLHF
作者: Yupei Yang, Lin Yang, Wanxi Deng, Lin Qu, Fan Feng, Biwei Huang, Shikui Tu, Lei Xu
分类: cs.LG
发布日期: 2026-01-29
💡 一句话要点
提出分解式因果表示学习,增强RLHF中奖励模型的鲁棒性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 奖励模型 因果表示学习 人类反馈强化学习 奖励利用 鲁棒性 分解式表示 对抗训练
📋 核心要点
- 现有奖励模型易受虚假特征影响,导致奖励利用,高奖励不等于好行为。
- 提出分解式因果表示学习,分离因果和非因果因素,约束奖励头只依赖因果成分。
- 实验表明,该方法学习的奖励模型更鲁棒,下游RLHF性能优于现有方法,有效缓解奖励利用。
📝 摘要(中文)
为了使大型语言模型与人类偏好对齐,通过人类反馈强化学习(RLHF)构建可靠的奖励模型至关重要。然而,标准的奖励模型容易受到与人类标签非因果相关的虚假特征的影响,导致奖励利用(reward hacking),即高预测奖励并不意味着更好的行为。本文从因果角度出发,提出了一个分解式表示学习框架,将模型的上下文嵌入分解为(1)足以进行奖励预测的因果因素和(2)捕获奖励无关属性(如长度或谄媚偏差)的非因果因素。然后,约束奖励头仅依赖于因果成分。此外,我们引入了一个对抗头,用于从非因果因素预测奖励,同时应用梯度反转来阻止它们编码奖励相关的信息。在数学和对话任务上的实验表明,我们的方法学习了更鲁棒的奖励模型,并始终优于最先进的基线,从而提高了下游RLHF的性能。对长度和谄媚偏差的分析进一步验证了我们的方法在减轻奖励利用行为方面的有效性。
🔬 方法详解
问题定义:现有奖励模型在RLHF中容易受到虚假相关性的影响,例如文本长度或谄媚程度,这些因素与人类的真实偏好并非因果相关。这导致模型倾向于利用这些非因果特征来获得高奖励,即使生成的文本质量不高,即出现“奖励利用”现象。因此,如何构建一个对虚假相关性不敏感、真正反映人类偏好的鲁棒奖励模型是本文要解决的核心问题。
核心思路:本文的核心思路是将模型的上下文嵌入分解为因果因素和非因果因素。因果因素是真正影响人类偏好的因素,而非因果因素则是那些与人类偏好无关的虚假相关性。通过约束奖励模型只依赖于因果因素,可以使其对非因果因素不敏感,从而提高模型的鲁棒性,减少奖励利用现象。
技术框架:该方法的技术框架主要包含以下几个模块:1) 上下文编码器:将输入文本编码为上下文嵌入;2) 分解模块:将上下文嵌入分解为因果成分和非因果成分;3) 奖励预测头:基于因果成分预测奖励;4) 对抗头:基于非因果成分预测奖励。整体流程是,首先通过上下文编码器获得文本的嵌入表示,然后通过分解模块将其分解为因果和非因果成分。奖励预测头利用因果成分进行奖励预测,而对抗头则尝试从非因果成分中预测奖励,并通过梯度反转来阻止非因果成分编码奖励相关的信息。
关键创新:该方法最重要的技术创新点在于分解式因果表示学习框架,它能够将模型的上下文嵌入分解为因果和非因果成分,并约束奖励模型只依赖于因果成分。与现有方法相比,该方法能够更有效地消除虚假相关性的影响,提高奖励模型的鲁棒性。
关键设计:在分解模块中,可以使用多种方法来实现因果和非因果成分的分离,例如对抗训练、信息瓶颈等。对抗头的损失函数采用梯度反转层,以鼓励非因果成分编码与奖励无关的信息。奖励预测头的损失函数采用标准的奖励建模损失函数,例如pairwise ranking loss。具体参数设置需要根据具体任务进行调整。
📊 实验亮点
在数学和对话任务上的实验结果表明,该方法能够学习到更鲁棒的奖励模型,并始终优于最先进的基线方法。具体而言,在对话任务上,该方法能够显著降低模型对文本长度和谄媚程度的依赖,从而提高生成文本的质量。实验结果还表明,该方法能够有效地缓解奖励利用现象,提高RLHF的性能。
🎯 应用场景
该研究成果可广泛应用于各种需要通过人类反馈进行模型对齐的场景,例如对话系统、文本生成、代码生成等。通过构建更鲁棒的奖励模型,可以提高模型的生成质量,减少奖励利用现象,从而更好地满足人类的需求和偏好。此外,该方法还可以应用于其他机器学习领域,例如因果推断、领域泛化等。
📄 摘要(原文)
A reliable reward model is essential for aligning large language models with human preferences through reinforcement learning from human feedback. However, standard reward models are susceptible to spurious features that are not causally related to human labels. This can lead to reward hacking, where high predicted reward does not translate into better behavior. In this work, we address this problem from a causal perspective by proposing a factored representation learning framework that decomposes the model's contextual embedding into (1) causal factors that are sufficient for reward prediction and (2) non-causal factors that capture reward-irrelevant attributes such as length or sycophantic bias. The reward head is then constrained to depend only on the causal component. In addition, we introduce an adversarial head trained to predict reward from the non-causal factors, while applying gradient reversal to discourage them from encoding reward-relevant information. Experiments on both mathematical and dialogue tasks demonstrate that our method learns more robust reward models and consistently improves downstream RLHF performance over state-of-the-art baselines. Analyses on length and sycophantic bias further validate the effectiveness of our method in mitigating reward hacking behaviors.