P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling

作者: Pinyi Zhang, Ting-En Lin, Yuchuan Wu, Jingyang Chen, Zongqi Wang, Hua Yang, Ze Xu, Fei Huang, Kai Zhang, Yongbin Li

分类: cs.CL

发布日期: 2026-02-12

备注: Accepted as ICLR 2026 Oral

💡 一句话要点

提出P-GenRM，通过测试时用户自适应缩放实现个性化生成奖励模型。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 个性化奖励模型 生成模型 用户偏好 测试时自适应 用户原型 强化学习 语言模型

📋 核心要点

现有个性化奖励模型难以捕捉用户偏好的多样性和场景依赖性，且泛化能力有限。
P-GenRM通过生成式奖励模型，将用户偏好转化为结构化评估链，并利用用户原型进行偏好迁移。
实验表明，P-GenRM在个性化奖励模型基准上取得了SOTA结果，并在分布外数据上表现出强大的泛化能力。

📝 摘要（中文）

大型语言模型的个性化对齐旨在根据个体用户偏好调整响应，通常通过强化学习实现。一个关键挑战是在开放场景中获得准确的、用户特定的奖励信号。现有的个性化奖励模型面临两个持续的局限性：(1)将多样化的、场景特定的偏好过度简化为一小组固定的评估原则；(2)难以泛化到反馈有限的新用户。为此，我们提出了P-GenRM，这是第一个具有测试时用户自适应缩放的个性化生成奖励模型。P-GenRM将偏好信号转换为结构化的评估链，从而在各种场景中推导出自适应的角色和评分标准。它进一步将用户聚类为用户原型，并引入双粒度缩放机制：在个体层面，自适应地缩放和聚合每个用户的评分方案；在原型层面，整合来自相似用户的偏好。这种设计减轻了推断偏好中的噪声，并通过基于原型的迁移增强了对未见用户的泛化能力。实验结果表明，P-GenRM在广泛使用的个性化奖励模型基准测试中取得了最先进的结果，平均提高了2.31%，并在分布外数据集上表现出强大的泛化能力。值得注意的是，测试时用户自适应缩放提供了额外的3%的提升，表明与测试时可扩展性更强的个性化对齐。

🔬 方法详解

问题定义：现有个性化奖励模型无法充分捕捉用户偏好的多样性，通常将复杂的偏好简化为固定的评估原则。此外，对于反馈数据有限的新用户，模型的泛化能力较差，难以准确预测其偏好。因此，如何构建一个能够适应不同用户和场景，且具有良好泛化能力的个性化奖励模型是一个关键问题。

核心思路：P-GenRM的核心思路是将用户偏好转化为结构化的评估链，从而更细粒度地捕捉用户在不同场景下的偏好。同时，通过用户聚类构建用户原型，利用相似用户的偏好信息来增强对新用户的泛化能力。测试时用户自适应缩放则进一步提升了个性化对齐效果。

技术框架：P-GenRM的整体框架包括以下几个主要模块：1) 偏好信号转换模块，将用户反馈转化为结构化的评估链，生成自适应的角色和评分标准。2) 用户聚类模块，将用户聚类成不同的用户原型。3) 双粒度缩放模块，在个体层面自适应地缩放和聚合每个用户的评分方案，在原型层面整合来自相似用户的偏好。4) 奖励预测模块，基于上述信息预测奖励值。

关键创新：P-GenRM的关键创新在于以下几点：1) 提出了个性化生成奖励模型，能够生成更细粒度的用户偏好表示。2) 引入了双粒度缩放机制，同时考虑个体用户和用户原型的偏好信息。3) 提出了测试时用户自适应缩放，进一步提升了个性化对齐效果。与现有方法相比，P-GenRM能够更好地捕捉用户偏好的多样性和场景依赖性，并具有更强的泛化能力。

关键设计：P-GenRM的关键设计包括：1) 使用生成模型生成评估链，具体模型结构未知。2) 使用聚类算法（具体算法未知）将用户聚类成不同的用户原型。3) 设计了双粒度缩放机制，具体缩放函数和参数设置未知。4) 损失函数的设计目标是最小化预测奖励与真实奖励之间的差异，具体形式未知。

🖼️ 关键图片

📊 实验亮点

P-GenRM在广泛使用的个性化奖励模型基准测试中取得了最先进的结果，平均提高了2.31%。在分布外数据集上表现出强大的泛化能力。测试时用户自适应缩放提供了额外的3%的性能提升，表明与测试时可扩展性更强的个性化对齐。

🎯 应用场景

P-GenRM可应用于各种需要个性化推荐和内容生成的场景，例如个性化新闻推荐、个性化电影推荐、个性化对话系统等。通过学习用户的个性化偏好，P-GenRM可以生成更符合用户需求的内容，提升用户体验，并带来更高的用户满意度和参与度。未来，该技术有望在智能客服、教育、医疗等领域发挥重要作用。

📄 摘要（原文）

Personalized alignment of large language models seeks to adapt responses to individual user preferences, typically via reinforcement learning. A key challenge is obtaining accurate, user-specific reward signals in open-ended scenarios. Existing personalized reward models face two persistent limitations: (1) oversimplifying diverse, scenario-specific preferences into a small, fixed set of evaluation principles, and (2) struggling with generalization to new users with limited feedback. To this end, we propose P-GenRM, the first Personalized Generative Reward Model with test-time user-based scaling. P-GenRM transforms preference signals into structured evaluation chains that derive adaptive personas and scoring rubrics across various scenarios. It further clusters users into User Prototypes and introduces a dual-granularity scaling mechanism: at the individual level, it adaptively scales and aggregates each user's scoring scheme; at the prototype level, it incorporates preferences from similar users. This design mitigates noise in inferred preferences and enhances generalization to unseen users through prototype-based transfer. Empirical results show that P-GenRM achieves state-of-the-art results on widely-used personalized reward model benchmarks, with an average improvement of 2.31%, and demonstrates strong generalization on an out-of-distribution dataset. Notably, Test-time User-based scaling provides an additional 3% boost, demonstrating stronger personalized alignment with test-time scalability.

P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理