In-Context Reward Adaptation for Robust Preference Modeling

📄 arXiv: 2605.30323v1 📥 PDF

作者: Zhenyu Sun, Zheng Xu, Ermin Wei

分类: cs.LG, cs.AI

发布日期: 2026-05-28


💡 一句话要点

提出In-Context Reward Adaptation框架,解决RLHF中奖励模型泛化性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机反馈强化学习 奖励模型 上下文学习 Transformer 偏好建模 人机对齐 泛化能力

📋 核心要点

  1. 现有RLHF方法依赖静态奖励模型,难以适应人类偏好的多样性和异构性,泛化能力不足。
  2. 提出In-Context Reward Adaptation框架,利用Transformer的上下文学习能力,从少量样本中推断奖励结构。
  3. 实验表明,结合人类反应时间作为辅助输入,模型能有效适应未见领域的偏好,提升鲁棒性。

📝 摘要(中文)

基于人类反馈的强化学习(RLHF)通常依赖于静态奖励模型来对齐大型语言模型与人类偏好。然而,人类价值观本质上是多样化和异构的,单一奖励模型通常缺乏泛化到未见偏好领域所需的鲁棒性。现有的多奖励框架试图解决这个问题,但通常仅限于固定的已知领域,并且无法适应未见的人类分布,而无需耗费成本的重新训练。本文提出了In-Context Reward Adaptation,这是一个基于Transformer的框架,旨在动态地建模多样化和未见的人类偏好。通过利用Transformer的上下文学习能力,我们的方法能够自适应地从一小部分偏好演示中推断出潜在的奖励结构。我们证明了标准的Transformer架构不足以完成这项任务,因为它对真实值存在渐近偏差。通过将人类反应时间作为辅助输入信号,模型能够成功地适应来自先前未见领域的偏好。我们的研究结果表明,这种方法为偏好建模提供了更强大的基础,允许表示异构奖励和偏好分布偏移,并为实现更灵活的人机对齐提供了一条可扩展的路径。

🔬 方法详解

问题定义:现有基于人类反馈的强化学习(RLHF)方法,依赖于静态的奖励模型,无法很好地适应人类偏好的多样性和异构性。当面对未知的偏好分布时,这些模型需要耗费大量资源进行重新训练,泛化能力较差。因此,如何构建一个能够动态适应不同人类偏好的奖励模型是本文要解决的核心问题。

核心思路:本文的核心思路是利用Transformer模型的上下文学习能力,通过少量的人类偏好示例(demonstrations)来推断潜在的奖励结构。类似于人类可以通过几个例子快速学习新的概念,模型也应该能够通过观察少量偏好数据来调整其奖励函数,从而适应新的偏好分布。

技术框架:In-Context Reward Adaptation框架主要包含以下几个模块:1)输入模块:接收人类偏好示例作为输入,每个示例包含多个选项以及人类对这些选项的偏好排序。2)Transformer编码器:使用Transformer编码器对输入示例进行编码,提取偏好信息。3)奖励预测模块:基于编码后的信息,预测每个选项的奖励值。4)辅助输入:将人类反应时间作为辅助输入信号,帮助模型更好地区分不同偏好。整体流程是,模型首先接收少量偏好示例,然后通过Transformer编码器提取特征,最后预测奖励值,并根据预测结果调整模型参数。

关键创新:本文最重要的创新点在于提出了In-Context Reward Adaptation的概念,并将其应用于奖励模型的设计中。与传统的静态奖励模型不同,该方法能够动态地适应不同的偏好分布,无需重新训练。此外,将人类反应时间作为辅助输入也是一个重要的创新,它可以帮助模型更好地区分不同偏好,提高模型的泛化能力。

关键设计:在模型设计方面,本文使用了标准的Transformer架构作为编码器。关键的设计在于如何将人类反应时间融入到模型中。具体来说,作者将反应时间与偏好示例的特征向量进行拼接,作为Transformer编码器的输入。在损失函数方面,作者使用了排序损失(ranking loss)来训练模型,目标是使模型预测的奖励值与人类的偏好排序一致。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,In-Context Reward Adaptation框架能够有效适应未见领域的偏好。通过将人类反应时间作为辅助输入,模型在多个数据集上取得了显著的性能提升。与传统的静态奖励模型相比,该方法能够更好地泛化到新的偏好分布,并且在某些情况下,性能提升超过10%。

🎯 应用场景

该研究成果可广泛应用于人机交互、个性化推荐、智能客服等领域。通过动态适应用户的偏好,可以提升用户体验,提高系统的智能化水平。例如,在智能客服中,可以根据用户的历史对话记录和实时反馈,动态调整回复策略,提供更个性化的服务。未来,该技术有望应用于更复杂的场景,如自动驾驶、医疗诊断等。

📄 摘要(原文)

Reinforcement Learning from Human Feedback (RLHF) typically relies on static reward models to align Large Language Models with human preferences. However, human values are inherently diverse and heterogeneous, and a single reward model often lacks the robustness required to generalize to unseen preference domains. While existing multi-reward frameworks attempt to address this, they are often restricted to a fixed set of known domains and fail to adapt to unseen human distributions without costly retraining. In this work, we propose In-Context Reward Adaptation, a transformer-based framework designed to model diverse and unseen human preferences on the fly. By leveraging the in-context learning capabilities of transformers, our approach adaptively infers the underlying reward structure from a small set of preference demonstrations. We demonstrate that while a standard transformer architecture is insufficient for this task by characterizing an asymptotic bias to the ground-truth, incorporating human response time as an auxiliary input signal enables the model to successfully adapt to preferences from previously unseen domains. Our findings show that this approach provides a more robust foundation for preference modeling, allowing for the representation of heterogeneous rewards and preference distribution shift, and offering a scalable path toward more flexible human-AI alignment.