Preference-Aware Rubric Learning for Personalized Evaluation

作者: Yilun Qiu, Xiaoyan Zhao, Yang Zhang, Yuxin Chen, Cilin Yan, Jiayin Cai, Xiaolong Jiang, Yao Hu, Yoko Yamakata, Tat-Seng Chua

分类: cs.CL

发布日期: 2026-05-29

🔗 代码/项目: GITHUB

💡 一句话要点

提出PARL框架，通过偏好感知的准则学习实现个性化评估。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 个性化评估 准则学习 偏好感知 强化学习 文本生成

📋 核心要点

现有评估方法难以捕捉用户长期交互历史中蕴含的个性化偏好，导致评估结果不准确。
PARL框架将个性化评估视为学习问题，通过学习偏好感知的评估准则来解决个性化评估难题。
实验表明，PARL能有效识别用户对齐的响应，并具有良好的泛化能力，同时捕捉用户风格偏好。

📝 摘要（中文）

随着大型语言模型（LLMs）从通用助手发展为以用户为中心的代理，个性化已成为将模型行为与个人偏好对齐的核心，使得个性化对齐的评估成为关键瓶颈。现有的评估方法，从自动指标到LLM作为评判者的方法，都无法捕捉嵌入在长期交互历史中的主观、用户特定的偏好。我们确定了可靠和有效的个性化评估的三个基本原则：代表性、用户一致性和区分性。为了解决这些原则，我们引入了“个性化评估即学习”的范式，将个性化评估定义为一个学习问题，而不是静态判断。在此范式下，我们提出了PARL（用于个性化评估的偏好感知准则学习）框架，该框架学习直接从原始用户历史中归纳出偏好感知的评估准则，并执行自我验证机制以确保与用户偏好的一致性。PARL将准则归纳与区分性强化学习目标相结合，该目标将用户编写的响应与竞争性的个性化模型输出进行对比，使学习到的准则能够捕捉精确的、用户特定的决策边界。在真实世界的个性化文本生成任务上的实验表明，PARL始终如一地归纳出高保真度的准则，这些准则能够可靠地识别与用户对齐的响应，并在用户和任务之间推广，同时捕捉稳定的风格偏好和细粒度的评估模式。为了确保可重复性，我们的代码可在https://github.com/SnowCharmQ/PARL获得。

🔬 方法详解

问题定义：现有的大型语言模型评估方法，如自动指标和LLM-as-a-judge，无法有效捕捉用户个性化的偏好。这些方法通常基于通用的评估标准，忽略了用户在长期交互历史中表现出的主观偏好，导致评估结果与用户的真实感受不符。因此，如何进行可靠且有效的个性化评估是一个亟待解决的问题。

核心思路：PARL的核心思路是将个性化评估转化为一个学习问题，即“个性化评估即学习”。通过学习一个偏好感知的评估准则，PARL能够根据用户的历史交互数据，自动调整评估标准，从而更准确地评估模型输出是否符合用户的个性化偏好。这种方法避免了人工定义评估规则的繁琐和主观性，提高了评估的效率和准确性。

技术框架：PARL框架主要包含两个阶段：准则归纳和强化学习优化。首先，准则归纳阶段从用户的历史交互数据中学习一个初始的评估准则。然后，通过一个区分性的强化学习目标，将用户编写的响应与竞争性的个性化模型输出进行对比，不断优化评估准则，使其能够更准确地捕捉用户特定的决策边界。框架还包含一个自我验证机制，确保学习到的准则与用户的偏好保持一致。

关键创新：PARL最重要的创新点在于将个性化评估问题转化为一个学习问题，并提出了偏好感知的准则学习方法。与传统的静态评估方法不同，PARL能够根据用户的历史数据动态调整评估标准，从而更准确地反映用户的个性化偏好。此外，PARL还引入了区分性的强化学习目标，通过对比用户编写的响应和模型输出，进一步提高了评估准则的准确性。

关键设计：PARL的关键设计包括：1) 使用Transformer模型来编码用户历史交互数据和模型输出，提取特征表示；2) 设计了一个基于对比学习的损失函数，鼓励学习到的评估准则能够区分用户偏好的响应和不偏好的响应；3) 采用强化学习算法（如PPO）来优化评估准则，使其能够更好地捕捉用户特定的决策边界；4) 使用自我验证机制，定期评估学习到的准则与用户偏好的一致性，并进行必要的调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PARL在个性化文本生成任务中能够学习到高保真度的评估准则，能够可靠地识别用户对齐的响应，并在用户和任务之间具有良好的泛化能力。PARL能够捕捉稳定的风格偏好和细粒度的评估模式，显著优于现有的评估方法。代码已开源，方便复现和进一步研究。

🎯 应用场景

PARL框架可应用于各种个性化文本生成任务的评估，例如个性化对话系统、个性化推荐系统和个性化内容创作。通过更准确地评估模型输出是否符合用户的个性化偏好，PARL可以帮助开发者更好地优化模型，提升用户体验。未来，PARL还可以扩展到其他模态的数据，例如图像和音频，实现更全面的个性化评估。

📄 摘要（原文）

As Large Language Models (LLMs) evolve from general-purpose assistants to user-centric agents, personalization has become central to aligning model behavior with individual preferences, making the evaluation of personalized alignment a critical bottleneck. Existing evaluation methods-ranging from automatic metrics to LLM-as-a-judge approaches-fail to capture subjective, user-specific preferences embedded in long-term interaction histories. We identify three essential principles for reliable and effective personalized evaluation: Representativeness, User-Consistency, and Discriminativeness. To address these principles, we introduce Personalized Evaluation as Learning, a paradigm that formulates personalized evaluation as a learning problem rather than a static judgment. Under this paradigm, we propose PARL (Preference-Aware Rubric Learning for Personalized Evaluation), a framework that learns to induce preference-aware evaluation rubrics directly from raw user histories and performs a self-validation mechanism to ensure consistency with the user's preferences. PARL integrates rubric induction with a discriminative reinforcement learning objective that contrasts user-authored responses against competitive personalized model outputs, enabling the learned rubrics to capture precise, user-specific decision boundaries. Experiments on real-world personalized text generation tasks show that PARL consistently induces high-fidelity rubrics that reliably identify user-aligned responses and generalize across users and tasks, while capturing stable stylistic preferences and fine-grained evaluative patterns. To ensure reproducibility, our code is available at https://github.com/SnowCharmQ/PARL.

Preference-Aware Rubric Learning for Personalized Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理