CARMO: Dynamic Criteria Generation for Context-Aware Reward Modelling

📄 arXiv: 2410.21545v2 📥 PDF

作者: Taneesh Gupta, Shivam Shandilya, Xuchao Zhang, Rahul Madhavan, Supriyo Ghosh, Chetan Bansal, Huaxiu Yao, Saravan Rajmohan

分类: cs.CL

发布日期: 2024-10-28 (更新: 2025-02-17)


💡 一句话要点

CARMO:通过动态生成上下文相关标准,提升奖励模型性能并缓解奖励攻击。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 奖励建模 奖励攻击 上下文感知 动态标准生成 大型语言模型

📋 核心要点

  1. 现有奖励模型易受奖励攻击,导致模型关注表面特征而非真实质量,影响模型性能。
  2. CARMO通过动态生成上下文相关的评估标准,引导奖励模型关注更深层次的质量指标,从而缓解奖励攻击。
  3. 实验表明,CARMO在零样本设置下取得了SOTA性能,并在Mistral-Base上实现了显著的性能提升。

📝 摘要(中文)

大型语言模型中的奖励建模容易受到奖励攻击的影响,导致模型关注生成列表或不必要地冗长回复等表面特征。在基于人类反馈的强化学习(RLHF)以及后训练中,有缺陷的奖励信号通常导致输出优化这些虚假相关性,而不是真正的质量或正确性。我们提出上下文感知奖励建模(CARMO),这是一种新颖的方法,它首先生成动态的、上下文相关的标准,以在生成奖励分数之前确定奖励模型的基础。与依赖静态规则的先前方法不同,CARMO利用大型语言模型(LLM)来适应性地创建评估标准,例如逻辑一致性、清晰度和深度,这些标准是为用户查询量身定制的。我们的理论分析表明,这种标准生成可以减轻奖励攻击。我们进一步证明,CARMO可以提炼成更小的模型,从而降低对齐的计算成本。我们在生成模型的零样本设置中建立了新的最先进的性能,在Reward Bench上实现了2.1%的改进。此外,在CARMO策划的偏好数据集上执行的对齐在Mistral-Base(7B)上分别实现了22.5%和21.1%的LC-WR和WR。

🔬 方法详解

问题定义:现有奖励模型容易受到奖励攻击,模型倾向于优化诸如生成列表长度等表面特征,而非内容质量和正确性。这导致模型产生不符合人类期望的输出,降低了模型的实用性和可靠性。现有方法依赖于静态的评估规则,无法适应不同上下文的需求,容易被模型利用。

核心思路:CARMO的核心思路是利用大型语言模型(LLM)动态生成与上下文相关的评估标准。这些标准能够更准确地反映用户对模型输出质量的期望,从而引导奖励模型学习更符合人类价值观的策略。通过动态生成标准,CARMO能够有效缓解奖励攻击,提高模型的泛化能力。

技术框架:CARMO包含两个主要阶段:标准生成阶段和奖励建模阶段。在标准生成阶段,CARMO利用LLM根据用户查询动态生成评估标准,例如逻辑一致性、清晰度和深度。在奖励建模阶段,CARMO使用生成的评估标准来评估模型输出,并生成奖励信号。该奖励信号用于训练或微调语言模型,使其能够生成更符合人类期望的输出。

关键创新:CARMO的关键创新在于动态生成上下文相关的评估标准。与传统的静态规则相比,动态生成的标准能够更好地适应不同上下文的需求,更准确地反映用户对模型输出质量的期望。这种动态性使得CARMO能够有效缓解奖励攻击,提高模型的泛化能力。

关键设计:CARMO使用LLM作为标准生成器,并采用提示工程技术来引导LLM生成高质量的评估标准。具体来说,CARMO使用包含用户查询和上下文信息的提示,要求LLM生成一系列与查询相关的评估标准。此外,CARMO还可以使用蒸馏技术将CARMO模型压缩成更小的模型,以降低计算成本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CARMO在Reward Bench上实现了2.1%的零样本性能提升,表明其在生成模型评估方面的优越性。在Mistral-Base (7B)模型上,使用CARMO生成的数据进行对齐训练后,LC-WR指标提升了22.5%,WR指标提升了21.1%,证明了CARMO在提升模型性能方面的有效性。

🎯 应用场景

CARMO可应用于各种需要高质量文本生成的场景,例如对话系统、文本摘要、机器翻译等。通过提高奖励模型的准确性和可靠性,CARMO可以帮助开发更智能、更符合人类期望的AI系统。此外,CARMO还可以用于评估和改进现有的语言模型,提高其安全性和可靠性。

📄 摘要(原文)

Reward modeling in large language models is susceptible to reward hacking, causing models to latch onto superficial features such as the tendency to generate lists or unnecessarily long responses. In reinforcement learning from human feedback (RLHF) and more generally during post-training flawed reward signals often lead to outputs that optimize for these spurious correlates instead of genuine quality or correctness. We propose Context-Aware Reward Modeling (CARMO), a novel approach that first generates dynamic, context-relevant criteria to ground the reward model before producing reward scores. Unlike prior methods that rely on static rubrics, CARMO leverages large language models (LLMs) to adaptively create evaluation criteria such as logical consistency, clarity, and depth tailored to the user query. Our theoretical analysis shows that such criteria generation can mitigate reward hacking. We further demonstrate that CARMO can be distilled into smaller models, reducing the computational cost of alignment. We establish a new state-of-the-art performance in zero-shot settings for generative models, achieving a 2.1\% improvement on Reward Bench. Furthermore, alignment performed on the CARMO-curated preference dataset achieves 22.5\% and 21.1\% LC-WR and WR, respectively, on Mistral-Base (7B).