Robust Reward Modeling for Large Language Models via Causal Decomposition
作者: Yunsheng Lu, Zijiang Yang, Licheng Pan, Zhixuan Chu
分类: cs.CL
发布日期: 2026-04-15
💡 一句话要点
提出基于因果分解的鲁棒奖励模型,提升大语言模型对齐效果
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 奖励模型 大语言模型对齐 因果分解 意图建模 鲁棒性 解码器 重建损失
📋 核心要点
- 现有奖励模型易受回复长度和顺从语气等虚假线索影响,缺乏对提示意图的有效建模。
- 提出一种基于因果分解的奖励模型训练方法,通过学习解码器来提取提示的潜在意图嵌入,并利用重建误差进行正则化。
- 实验表明,该方法在多个基准测试中提高了奖励模型的准确性和鲁棒性,并能生成更短、更符合提示意图的回复。
📝 摘要(中文)
奖励模型是校准大型语言模型的关键,但它们常常过度拟合到虚假线索,如回复长度和过度顺从的语气。现有工作大多通过惩罚或控制特定伪像来直接削弱这些线索,但没有明确鼓励模型将偏好建立在提示的意图上。本文学习一个解码器,将候选答案映射到输入的潜在意图嵌入。重建误差被用作正则化奖励模型训练的信号。理论证据表明,该信号强调提示依赖信息,同时抑制提示独立的捷径。在数学、帮助性和安全性基准测试中,解码器以0.877的准确率选择更短、更少谄媚的候选答案。将此信号纳入Gemma-2-2B-it和Gemma-2-9B-it的RM训练中,可将RewardBench准确率从0.832提高到0.868。对于Best-of-N选择,本文框架提高了长度控制的胜率,同时产生更短的输出,并且在受控重写测试中对长度增加和轻微的离题漂移保持鲁棒性。
🔬 方法详解
问题定义:现有奖励模型在对齐大型语言模型时,容易受到诸如回复长度、过度顺从等表面因素的影响,而未能真正理解并对齐提示的内在意图。这种过度拟合导致模型在实际应用中表现不佳,例如生成冗长、谄媚或偏离主题的回复。现有方法通常直接惩罚这些表面因素,但缺乏对提示意图的显式建模,效果有限。
核心思路:本文的核心思路是通过引入一个解码器,将候选答案映射回提示的潜在意图嵌入。这个解码器的训练目标是最小化重建误差,从而迫使奖励模型关注与提示意图相关的信息,并抑制那些与提示无关的表面因素。通过这种方式,奖励模型能够更好地理解提示的真实意图,并给出更符合意图的回复。
技术框架:整体框架包括以下几个主要模块:1) 奖励模型(Reward Model):用于评估候选答案的质量。2) 解码器(Decoder):将候选答案映射到提示的潜在意图嵌入。3) 重建损失(Reconstruction Loss):用于衡量解码器重建提示意图的准确性,并作为奖励模型训练的正则化项。训练过程中,奖励模型和解码器联合训练,通过最小化重建损失来提高奖励模型的鲁棒性和准确性。
关键创新:最重要的技术创新点在于利用因果分解的思想,将奖励信号分解为提示依赖的部分和提示独立的部分。通过解码器和重建损失,显式地鼓励奖励模型关注提示依赖的信息,并抑制提示独立的捷径。这种方法与现有方法的本质区别在于,它不是简单地惩罚表面因素,而是从根本上改变了奖励模型的学习方式,使其更加关注提示的内在意图。
关键设计:解码器可以使用各种神经网络结构,例如Transformer或LSTM。重建损失可以使用均方误差(MSE)或交叉熵损失。一个关键的设计是选择合适的潜在意图嵌入表示。论文中可能使用了预训练语言模型的嵌入作为意图表示。此外,需要仔细调整重建损失在总损失中的权重,以平衡奖励模型的准确性和鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在RewardBench基准测试中,将Gemma-2-2B-it和Gemma-2-9B-it模型的准确率从0.832提高到0.868。此外,该方法还能生成更短的输出,并对长度增加和轻微的离题漂移保持鲁棒性。解码器能够以0.877的准确率选择更短、更少谄媚的候选答案,验证了该方法在抑制虚假线索方面的有效性。
🎯 应用场景
该研究成果可广泛应用于各种需要大语言模型对齐的场景,例如对话系统、文本生成、代码生成等。通过提高奖励模型的鲁棒性和准确性,可以生成更符合用户意图、更安全、更可靠的回复。该方法还有助于减少大语言模型中的偏见和有害内容,提升用户体验。
📄 摘要(原文)
Reward models are central to aligning large language models, yet they often overfit to spurious cues such as response length and overly agreeable tone. Most prior work weakens these cues directly by penalizing or controlling specific artifacts, but it does not explicitly encourage the model to ground preferences in the prompt's intent. We learn a decoder that maps a candidate answer to the latent intent embedding of the input. The reconstruction error is used as a signal to regularize the reward model training. We provide theoretical evidence that this signal emphasizes prompt-dependent information while suppressing prompt-independent shortcuts. Across math, helpfulness, and safety benchmarks, the decoder selects shorter and less sycophantic candidates with 0.877 accuracy. Incorporating this signal into RM training in Gemma-2-2B-it and Gemma-2-9B-it increases RewardBench accuracy from 0.832 to 0.868. For Best-of-N selection, our framework increases length-controlled win rates while producing shorter outputs, and remains robust to lengthening and mild off-topic drift in controlled rewrite tests.