Re-Centering Humans in LLM Personalization
作者: Lechen Zhang, Jiarui Liu, Tal August
分类: cs.CL, cs.AI, cs.HC
发布日期: 2026-06-04
💡 一句话要点
提出人类数据驱动的LLM个性化评估方法以解决现有系统局限性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 个性化评估 人类数据 用户属性提取 响应生成
📋 核心要点
- 现有的LLM个性化评估主要依赖合成数据,缺乏对真实用户的有效评估,导致系统性能不明确。
- 论文提出通过收集真实人类对话数据,分析个性化系统在提取和生成个性化响应中的局限性,并引入轻量级训练干预。
- 实验结果显示,模型在提取用户属性和生成个性化响应方面存在显著不足,且人类评分与模型生成的个性化响应相关性较低。
📝 摘要(中文)
尽管对大型语言模型(LLMs)个性化能力的兴趣日益增长,但大多数评估依赖于合成数据,尚不清楚当前个性化系统对真实用户的效果。本文研究了使用合成数据与人类数据在LLM个性化性能上的差距。我们收集了550个真实对话及其在个性化三个阶段的判断,揭示了系统在每个阶段的局限性。模型在提取用户属性、与新提示配对相关属性以及生成个性化响应方面均表现不佳。我们提出了两种轻量级的训练干预措施,以使自动个性化评估更接近人类数据,但在生成个性化响应的阶段,学习的奖励模型与人类评分的相关性仍然有限,表明人类对个性化质量的判断难以直接建模。我们收集的数据为研究模型如何提取、选择和整合用户信息提供了基础。
🔬 方法详解
问题定义:本文旨在解决当前LLM个性化系统在真实用户数据上的评估不足,现有方法主要依赖合成数据,导致对真实用户的适应性差。
核心思路:通过收集真实人类对话数据,分析个性化系统在提取用户属性、选择相关属性和生成个性化响应中的表现,提出轻量级训练干预以改善评估过程。
技术框架:研究分为三个主要阶段:提取用户属性、将相关属性与新提示配对、生成个性化响应。每个阶段都通过人类数据进行评估,揭示系统的局限性。
关键创新:引入了基于人类数据的评估方法,强调了模型在个性化响应生成中的不足,尤其是在与人类判断的一致性方面,提出的干预措施为个性化评估提供了新的视角。
关键设计:在数据收集阶段,收集了550个对话和5,949个判断,针对每个阶段设计了相应的评估标准和损失函数,以确保模型能够更好地适应人类用户的需求。具体的参数设置和网络结构细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,模型在提取用户属性和生成个性化响应方面的表现显著低于人类评分,尤其是在生成的个性化响应与通用响应的比较中,后者的评分更高。引入的轻量级训练干预措施在前两个阶段取得了一定的改善,但在生成个性化响应阶段的相关性仍然有限。
🎯 应用场景
该研究的潜在应用领域包括个性化聊天机器人、智能助手和在线客服系统等。通过改进个性化评估方法,可以提升用户体验,使系统更好地理解和响应用户需求,未来可能对人机交互的设计产生深远影响。
📄 摘要(原文)
Despite growing interest, most evaluations of large language models' (LLMs') personalization abilities have relied on synthetic data. It remains unclear how well current personalization systems work for real users. In this paper, we study the gap in LLM personalization performance when using synthetic versus human data. We collect human conversations (550 conversations) and judgments across three stages of personalization: extracting user attributes from conversations (5,949 judgments), pairing relevant attributes with new prompts (11,919), and incorporating relevant attributes into a personalized response (1,101). Incorporating human data reveals system limitations at each stage. Models struggle to extract attributes from human conversations, disagree with human judgments on relevant attributes, and generate personalized responses that humans judge no better than generic responses (though that LLM judges widely rate as better). We introduce two lightweight training-based interventions that shift automated personalization evaluation closer to human data in our first two stages. However, in our third stage we find that learned reward models achieve only modest correlation with human ratings, suggesting that human-aligned personalization quality judgments are difficult to model directly. Our collected data provides a foundation for studying how models should extract, select, and incorporate user information in ways that humans find useful.