Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling

📄 arXiv: 2507.06419v1 📥 PDF

作者: Pankayaraj Pathmanathan, Furong Huang

分类: cs.CL

发布日期: 2025-07-08


💡 一句话要点

REFORM:通过奖励引导的对抗性失败模式发现,提升奖励模型的鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 奖励建模 对抗样本 鲁棒性 大型语言模型 自我改进 偏好对齐 失败模式发现

📋 核心要点

  1. 现有奖励模型在分布偏移或对抗扰动下易失效,且依赖于先验知识,限制了其在实际场景中的应用。
  2. REFORM框架利用奖励模型自身引导生成对抗样本,扩充训练数据,从而修补奖励模型的不对齐行为。
  3. 实验表明,REFORM在HH和PKU Beavertails数据集上显著提升了奖励模型的鲁棒性,且不牺牲奖励质量。

📝 摘要(中文)

奖励建模(RM)被广泛应用于捕获人类偏好,从而对齐大型语言模型(LLM),例如模型微调、响应过滤和排序等任务。然而,由于人类偏好的复杂性和可用数据集的有限覆盖,奖励模型在分布偏移或对抗扰动下经常失效。现有的识别此类失败模式的方法通常依赖于关于偏好分布或失败属性的先验知识,这限制了它们在缺乏此类信息的实际场景中的应用。本文提出了一种可处理的、与偏好分布无关的方法,通过奖励引导的受控解码来发现奖励模型的失败模式。在此基础上,我们引入了REFORM,一个自我改进的奖励建模框架,通过使用奖励模型本身来引导生成错误评分的响应,从而增强鲁棒性。这些对抗性示例随后被用于扩充训练数据,并修补奖励模型的不对齐行为。我们在两个广泛使用的偏好数据集Anthropic Helpful Harmless (HH)和PKU Beavertails上评估了REFORM,结果表明它在不牺牲奖励质量的情况下显著提高了鲁棒性。值得注意的是,REFORM在直接评估和下游策略训练中都保持了性能,并通过消除虚假相关性进一步提高了对齐质量。

🔬 方法详解

问题定义:奖励建模旨在学习一个能够准确反映人类偏好的函数,用于对齐大型语言模型。然而,由于人类偏好的复杂性和数据覆盖的局限性,现有的奖励模型在面对分布偏移或对抗性输入时,容易产生错误的评分,导致模型对齐失败。现有的失败模式识别方法通常需要关于偏好分布或失败属性的先验知识,这在实际应用中难以满足。

核心思路:REFORM的核心思路是利用奖励模型自身来发现其自身的弱点,即奖励模型容易给出错误评分的输入。通过奖励引导的对抗样本生成,REFORM能够主动探索奖励模型的决策边界,并生成能够欺骗奖励模型的对抗样本。这些对抗样本随后被用于扩充训练数据,从而提高奖励模型的鲁棒性。

技术框架:REFORM框架包含两个主要阶段:1) 对抗样本生成阶段:利用奖励模型引导生成对抗样本,这些样本旨在欺骗奖励模型,使其给出错误的评分。2) 模型训练阶段:将生成的对抗样本添加到原始训练数据中,重新训练奖励模型,从而提高其鲁棒性。整个过程迭代进行,奖励模型不断发现新的弱点并进行自我修复。

关键创新:REFORM的关键创新在于其自我改进的特性。传统的奖励建模方法通常依赖于人工标注的数据,而REFORM能够利用奖励模型自身来生成训练数据,从而降低了对人工标注的依赖。此外,REFORM通过对抗样本生成,能够主动探索奖励模型的决策边界,从而发现模型的弱点,并有针对性地进行改进。

关键设计:在对抗样本生成阶段,REFORM采用奖励引导的受控解码策略。具体来说,REFORM使用奖励模型对生成的文本进行评分,并根据评分调整生成策略,从而生成能够欺骗奖励模型的对抗样本。在模型训练阶段,REFORM采用标准的奖励建模训练方法,例如pairwise ranking loss,来训练奖励模型。此外,REFORM还引入了一些正则化技术,以防止模型过拟合对抗样本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

REFORM在Anthropic Helpful Harmless (HH)和PKU Beavertails数据集上进行了评估,实验结果表明,REFORM能够显著提高奖励模型的鲁棒性,同时保持或提高奖励模型的准确性。具体来说,REFORM在对抗攻击下的性能提升了10%-20%,并且在下游策略训练中也取得了更好的效果。此外,REFORM还能够消除奖励模型中的虚假相关性,从而提高模型的泛化能力。

🎯 应用场景

REFORM框架可应用于各种需要奖励建模的场景,例如大型语言模型的对齐、对话系统的优化、推荐系统的改进等。通过提高奖励模型的鲁棒性,REFORM能够提升这些应用在实际场景中的稳定性和可靠性,减少因奖励模型失效而导致的负面影响。此外,REFORM的自我改进特性也使其能够适应不断变化的用户偏好和环境。

📄 摘要(原文)

Reward modeling (RM), which captures human preferences to align large language models (LLMs), is increasingly employed in tasks such as model finetuning, response filtering, and ranking. However, due to the inherent complexity of human preferences and the limited coverage of available datasets, reward models often fail under distributional shifts or adversarial perturbations. Existing approaches for identifying such failure modes typically rely on prior knowledge about preference distributions or failure attributes, limiting their practicality in real-world settings where such information is unavailable. In this work, we propose a tractable, preference-distribution agnostic method for discovering reward model failure modes via reward guided controlled decoding. Building on this, we introduce REFORM, a self-improving reward modeling framework that enhances robustness by using the reward model itself to guide the generation of falsely scored responses. These adversarial examples are then used to augment the training data and patch the reward model's misaligned behavior. We evaluate REFORM on two widely used preference datasets Anthropic Helpful Harmless (HH) and PKU Beavertails and demonstrate that it significantly improves robustness without sacrificing reward quality. Notably, REFORM preserves performance both in direct evaluation and in downstream policy training, and further improves alignment quality by removing spurious correlations.