CausalRM: Causal-Theoretic Reward Modeling for RLHF from Observational User Feedbacks
作者: Hao Wang, Licheng Pan, Zhichao Chen, Chunyuan Zheng, Zhixuan Chu, Xiaoxi Li, Yuan Lu, Xinggao Liu, Haoxuan Li, Zhouchen Lin
分类: cs.LG, cs.AI, cs.CL, stat.ML
发布日期: 2026-03-19
💡 一句话要点
CausalRM:利用因果理论进行奖励建模,从观测用户反馈中进行RLHF
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 奖励建模 强化学习 人类反馈 因果推断 观测数据 用户偏好 噪声建模
📋 核心要点
- 现有RLHF方法依赖昂贵的人工标注数据,限制了其可扩展性,需要探索更经济高效的奖励建模方法。
- CausalRM利用因果理论,通过建模标注噪声和用户偏好偏差,从观测用户反馈中学习无偏奖励模型。
- 实验表明,CausalRM在多个数据集上显著提升了RLHF性能,例如在WildGuardMix和HarmBench上分别提升49.2%和32.7%。
📝 摘要(中文)
尽管从人类反馈中进行强化学习(RLHF)在对齐语言模型方面取得了成功,但当前的奖励建模严重依赖于在受控且昂贵的条件下从人类标注者那里收集的实验反馈数据。本文提出观测奖励建模——利用观测用户反馈(例如,点击、复制和赞)学习奖励模型——作为一种可扩展且经济高效的替代方案。我们确定了该设置中的两个基本挑战:(1)由于标注错误,观测反馈是有噪声的,这使其偏离了真实的用户偏好;(2)观测反馈受到用户偏好的影响,用户更倾向于对他们感觉强烈的回复提供反馈,这会在训练和推理数据之间产生分布偏移。为了应对这些挑战,我们提出了CausalRM,一个因果理论奖励建模框架,旨在从观测反馈中学习无偏的奖励模型。为了解决挑战(1),CausalRM引入了一个噪声感知的替代损失项,通过显式地建模标注错误生成过程,该损失项在无噪声条件下可证明等价于原始损失。为了解决挑战(2),CausalRM使用倾向得分——用户为给定回复提供反馈的概率——来重新加权训练样本,从而产生消除用户偏好偏差的损失函数。在不同的LLM骨干网络和基准数据集上的大量实验验证了CausalRM能够有效地从噪声和有偏的观测反馈中学习准确的奖励信号,并在下游RLHF任务中提供显著的性能改进——包括在WildGuardMix上获得49.2%的增益,在HarmBench上获得32.7%的改进。代码可在我们的项目网站上找到。
🔬 方法详解
问题定义:现有RLHF方法依赖于人工标注的实验数据,成本高昂且难以扩展。直接使用观测用户反馈(如点击、复制等)进行奖励建模面临两大挑战:一是观测反馈包含标注噪声,与真实用户偏好存在偏差;二是用户反馈本身存在选择偏差,用户更倾向于对感兴趣的回复提供反馈,导致训练数据分布与实际应用场景不一致。
核心思路:CausalRM的核心思路是利用因果推断理论,显式地建模标注噪声和用户偏好偏差,从而学习无偏的奖励模型。通过构建因果图,将观测反馈视为真实用户偏好、标注噪声和用户偏好偏差共同作用的结果,然后设计相应的损失函数来消除这些偏差的影响。
技术框架:CausalRM的整体框架包括以下几个主要步骤:1) 数据收集:收集观测用户反馈数据,例如点击、复制、点赞等。2) 因果图建模:构建描述观测反馈生成过程的因果图,明确标注噪声和用户偏好偏差的因果关系。3) 损失函数设计:基于因果图,设计包含噪声感知项和倾向得分加权项的损失函数,分别用于消除标注噪声和用户偏好偏差。4) 模型训练:使用收集到的数据和设计的损失函数训练奖励模型。5) RLHF应用:将训练好的奖励模型应用于下游RLHF任务,例如语言模型对齐。
关键创新:CausalRM的关键创新在于:1) 因果建模:首次将因果推断应用于观测奖励建模,通过显式建模标注噪声和用户偏好偏差,实现了无偏奖励学习。2) 噪声感知损失:设计了一种噪声感知的替代损失项,通过建模标注错误生成过程,在无噪声条件下等价于原始损失。3) 倾向得分加权:使用倾向得分对训练样本进行重新加权,消除了用户偏好偏差,使得训练数据分布更接近实际应用场景。
关键设计:CausalRM的关键设计包括:1) 噪声模型:假设标注噪声服从某种概率分布(例如,均匀分布或高斯分布),并使用该分布来建模标注错误生成过程。2) 倾向得分估计:使用逻辑回归或其他分类模型来估计用户为给定回复提供反馈的概率(倾向得分)。3) 损失函数:CausalRM的损失函数包含两项:噪声感知项和倾向得分加权项。噪声感知项用于消除标注噪声的影响,倾向得分加权项用于消除用户偏好偏差的影响。损失函数的具体形式取决于所使用的噪声模型和倾向得分估计方法。
📊 实验亮点
实验结果表明,CausalRM在多个数据集上显著提升了RLHF性能。例如,在WildGuardMix数据集上,CausalRM相比基线方法提升了49.2%;在HarmBench数据集上,CausalRM相比基线方法提升了32.7%。这些结果表明,CausalRM能够有效地从噪声和有偏的观测反馈中学习准确的奖励信号,并提升下游RLHF任务的性能。
🎯 应用场景
CausalRM具有广泛的应用前景,可以应用于各种需要从用户反馈中学习奖励模型的场景,例如:1) 语言模型对齐:利用用户点击、复制等行为优化语言模型;2) 推荐系统:根据用户点击、购买等行为优化推荐策略;3) 机器人控制:基于用户指令和反馈训练机器人行为策略。该研究降低了RLHF的成本,促进了人工智能技术的普及。
📄 摘要(原文)
Despite the success of reinforcement learning from human feedback (RLHF) in aligning language models, current reward modeling heavily relies on experimental feedback data collected from human annotators under controlled and costly conditions. In this work, we introduce observational reward modeling -- learning reward models with observational user feedback (e.g., clicks, copies, and upvotes) -- as a scalable and cost-effective alternative. We identify two fundamental challenges in this setting: (1) observational feedback is noisy due to annotation errors, which deviates it from true user preference; (2) observational feedback is biased by user preference, where users preferentially provide feedback on responses they feel strongly about, which creats a distribution shift between training and inference data. To address these challenges, we propose CausalRM, a causal-theoretic reward modeling framework that aims to learn unbiased reward models from observational feedback. To tackle challenge (1), CausalRM introduces a noise-aware surrogate loss term that is provably equivalent to the primal loss under noise-free conditions by explicitly modeling the annotation error generation process. To tackle challenge (2), CausalRM uses propensity scores -- the probability of a user providing feedback for a given response -- to reweight training samples, yielding a loss function that eliminates user preference bias. Extensive experiments across diverse LLM backbones and benchmark datasets validate that CausalRM effectively learns accurate reward signals from noisy and biased observational feedback and delivers substantial performance improvements on downstream RLHF tasks -- including a 49.2% gain on WildGuardMix and a 32.7% improvement on HarmBench. Code is available on our project website.