Debiasing Reward Models by Representation Learning with Guarantees
作者: Ignavier Ng, Patrick Blöbaum, Siddharth Bhandari, Kun Zhang, Shiva Kasiviswanathan
分类: cs.LG, cs.AI, stat.ML
发布日期: 2025-10-27
💡 一句话要点
提出一种基于表征学习的解偏方法,用于提升奖励模型的鲁棒性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 奖励模型 解偏 表征学习 变分推理 虚假相关性
📋 核心要点
- 现有奖励模型易受虚假相关性影响,导致模型学习到非预期的偏差,影响对齐效果。
- 论文提出一种基于表征学习的解偏框架,通过识别和分离虚假与非虚假潜在变量来训练更鲁棒的奖励模型。
- 实验结果表明,该方法能有效缓解虚假相关性问题,提升奖励模型的泛化能力和鲁棒性。
📝 摘要(中文)
为了使大型语言模型与人类偏好对齐,研究人员广泛采用基于人类反馈的强化学习等对齐技术,这些技术依赖于学习和利用奖励模型。然而,这些模型经常利用虚假相关性,例如响应长度、歧视、谄媚和概念偏差,这个问题日益受到关注。本文提出了一个原则性框架,旨在减轻奖励模型中的这些偏差,同时保留反映预期偏好的潜在因素。我们首先提出了一个数据生成过程的公式,假设观察到的数据(例如,文本)是由虚假和非虚假潜在变量生成的。有趣的是,我们证明了这些非虚假潜在变量可以从数据中进行理论识别,无论是否存在虚假潜在变量的替代物。这进一步启发了一种实用的方法,该方法使用变分推理来恢复这些变量,并利用它们来训练奖励模型。在合成和真实世界数据集上的实验表明,我们的方法有效地缓解了虚假相关性问题,并产生了更鲁棒的奖励模型。
🔬 方法详解
问题定义:现有奖励模型在对齐大型语言模型时,容易受到数据中存在的虚假相关性的影响,例如响应长度、谄媚行为等。这些虚假相关性会导致奖励模型学习到错误的偏好,从而影响模型的泛化能力和鲁棒性。现有方法难以有效区分和消除这些虚假相关性的影响。
核心思路:论文的核心思路是将观察到的数据生成过程建模为由虚假和非虚假潜在变量共同作用的结果。通过理论分析,证明了非虚假潜在变量可以从数据中识别出来,即使没有虚假变量的先验知识。基于此,论文提出利用表征学习的方法,学习到能够捕捉非虚假潜在变量的表征,并用这些表征来训练奖励模型。
技术框架:该方法主要包含以下几个阶段:1) 数据生成过程建模:将观察到的数据表示为由虚假和非虚假潜在变量生成的。2) 理论分析:证明非虚假潜在变量的可识别性。3) 表征学习:使用变分推理学习能够捕捉非虚假潜在变量的表征。4) 奖励模型训练:使用学习到的表征作为输入,训练奖励模型。
关键创新:该方法最重要的创新点在于,它提供了一个理论框架,证明了在没有虚假变量先验知识的情况下,非虚假潜在变量的可识别性。这为后续的表征学习和奖励模型训练提供了理论基础。此外,该方法还提出了一种基于变分推理的实用方法,用于学习能够捕捉非虚假潜在变量的表征。
关键设计:在表征学习阶段,论文使用变分自编码器(VAE)来学习潜在变量的表征。VAE的目标函数包含重构损失和KL散度损失,用于保证学习到的表征能够有效地重构输入数据,并且符合预设的先验分布。奖励模型可以使用各种常见的模型结构,例如线性模型、神经网络等。关键在于使用学习到的非虚假潜在变量的表征作为输入。
🖼️ 关键图片
📊 实验亮点
在合成数据集和真实数据集上的实验结果表明,该方法能够有效地缓解奖励模型中的虚假相关性问题。与现有方法相比,该方法能够学习到更鲁棒的奖励模型,在面对不同的测试集时,表现出更好的泛化能力。具体的性能提升幅度取决于数据集和任务的设置,但总体趋势是显著的。
🎯 应用场景
该研究成果可应用于各种需要使用奖励模型进行对齐的任务中,例如大型语言模型的对齐、对话系统的优化、推荐系统的改进等。通过消除奖励模型中的虚假相关性,可以提升模型的公平性、鲁棒性和泛化能力,从而更好地服务于人类用户。
📄 摘要(原文)
Recent alignment techniques, such as reinforcement learning from human feedback, have been widely adopted to align large language models with human preferences by learning and leveraging reward models. In practice, these models often exploit spurious correlations, involving, e.g., response length, discrimination, sycophancy, and conceptual bias, which is a problem that has received increasing attention. In this work, we propose a principled framework that mitigates these biases in reward models while preserving the underlying factors that reflect intended preferences. We first provide a formulation of the data-generating process, assuming that the observed data (e.g., text) is generated from both spurious and non-spurious latent variables. We show that, interestingly, these non-spurious latent variables can be theoretically identified from data, regardless of whether a surrogate for the spurious latent variables is available. This further inspires a practical method that uses variational inference to recover these variables and leverages them to train reward models. Experiments on synthetic and real-world datasets demonstrate that our method effectively mitigates spurious correlation issues and yields more robust reward models.