Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It
作者: Shuyue Stella Li, Avinandan Bose, Faeze Brahman, Simon Shaolei Du, Pang Wei Koh, Maryam Fazel, Yulia Tsvetkov
分类: cs.CL, cs.AI
发布日期: 2025-09-30
备注: 57 pages, 6 figures
💡 一句话要点
提出PREFDISCO评估框架,揭示LLM在即时个性化推理上的局限性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 个性化推理 大语言模型 用户偏好 交互式评估 PREFDISCO
📋 核心要点
- 现有LLM在面向用户的应用中,无法根据用户偏好进行个性化推理,导致响应与用户需求不匹配。
- 提出PREFDISCO评估框架,通过交互式个性化任务,模拟用户偏好,评估LLM的个性化推理能力。
- 实验表明,简单个性化尝试效果甚至不如通用响应,揭示了LLM在个性化推理方面的局限性。
📝 摘要(中文)
当前的大语言模型(LLM)开发将任务解决和偏好对齐视为独立的挑战,首先优化客观正确性,然后对齐聚合的人类偏好。这种模式在面向用户的应用中失效,因为如果响应与用户的需求不匹配,即使正确地解决问题也是不够的。在由于冷启动条件或隐私限制而没有先前用户交互历史的即时场景中,这一挑战更加剧烈。LLM需要识别它们对用户偏好的未知信息,通过提问策略性地引出偏好值,然后相应地调整它们的推理过程和响应——这是一个复杂的认知过程链,我们称之为个性化推理。我们引入PREFDISCO,一种评估方法,它使用心理学基础的角色和稀疏偏好将静态基准转换为交互式个性化任务。我们的框架创建了这样的场景:相同的问题需要不同的推理链,这取决于用户上下文,因为最佳解释方法因个人专业知识和偏好而异,同时保持事实的准确性。对10个任务中21个前沿模型的评估表明,29.0%的朴素个性化尝试产生的偏好对齐比通用响应更差,但通用响应也未能有效地服务于个人用户需求。这些发现表明,个性化推理需要专门的开发,而不是自然产生。PREFDISCO将个性化推理确立为一个可衡量的研究前沿,并揭示了当前LLM交互能力的基本局限性,为开发能够在教育、医疗保健和技术领域适应个人用户的系统奠定了基础,在这些领域中,个性化至关重要。
🔬 方法详解
问题定义:论文旨在解决大语言模型(LLM)在即时个性化推理方面的不足。现有LLM通常先追求客观正确性,再对齐聚合的人类偏好,忽略了用户个体差异。在没有用户历史数据的情况下(冷启动或隐私限制),LLM难以根据用户偏好进行个性化响应,导致用户体验不佳。
核心思路:论文的核心思路是构建一个评估框架,用于衡量LLM在个性化推理方面的能力。该框架通过模拟具有不同偏好的用户角色,将静态基准测试转化为交互式个性化任务。LLM需要通过提问来了解用户偏好,并根据这些偏好调整其推理过程和响应。
技术框架:PREFDISCO框架包含以下主要组成部分:1) 心理学基础的角色设定,模拟不同用户;2) 将静态基准测试转化为交互式任务;3) 评估指标,衡量LLM的偏好对齐程度。LLM需要首先识别自身对用户偏好的未知信息,然后通过提问策略性地获取这些信息,最后根据获取的信息调整推理过程和响应。
关键创新:PREFDISCO的关键创新在于它提供了一种系统化的方法来评估LLM的个性化推理能力。与传统的评估方法不同,PREFDISCO关注的是LLM是否能够根据用户的个体偏好进行推理和响应,而不仅仅是关注客观正确性。此外,PREFDISCO还提供了一种交互式的评估方式,允许LLM通过提问来了解用户偏好。
关键设计:PREFDISCO使用心理学基础的角色设定来模拟不同的用户。每个角色都具有一组稀疏的偏好,这些偏好会影响其对问题的理解和期望的答案。评估指标包括偏好对齐程度,即LLM的响应与用户偏好之间的匹配程度。具体任务包括问答、解释生成等,要求LLM根据用户角色进行个性化推理。
🖼️ 关键图片
📊 实验亮点
实验结果表明,29.0%的朴素个性化尝试产生的偏好对齐效果比通用响应更差,这表明当前LLM在个性化推理方面存在显著的局限性。即使是通用响应,也未能有效地服务于个人用户需求。这些发现强调了专门开发个性化推理能力的必要性,并为未来的研究方向提供了指导。
🎯 应用场景
该研究成果可应用于教育、医疗保健和技术支持等领域,提升用户体验。例如,在教育领域,LLM可以根据学生的学习风格和知识水平提供个性化的辅导;在医疗保健领域,LLM可以根据患者的病情和偏好提供个性化的治疗建议;在技术支持领域,LLM可以根据用户的技术背景和需求提供个性化的解决方案。未来,该研究可以推动开发更智能、更人性化的LLM系统。
📄 摘要(原文)
Current large language model (LLM) development treats task-solving and preference alignment as separate challenges, optimizing first for objective correctness, then for alignment to aggregated human preferences. This paradigm fails in human-facing applications where solving a problem correctly is insufficient if the response mismatches the user's needs. This challenge intensifies in just-in-time scenarios where no prior user interaction history exists due to cold-start conditions or privacy constraints. LLMs need to identify what they don't know about user preferences, strategically elicit preference values through questioning, then adapt their reasoning processes and responses accordingly -- a complicated chain of cognitive processes which we term personalized reasoning. We introduce PREFDISCO, an evaluation methodology that transforms static benchmarks into interactive personalization tasks using psychologically-grounded personas with sparse preferences. Our framework creates scenarios where identical questions require different reasoning chains depending on user context, as optimal explanation approaches vary by individual expertise and preferences while maintaining factual accuracy. Evaluation of 21 frontier models across 10 tasks reveals 29.0% of naive personalization attempts produce worse preference alignment than generic responses, yet generic responses also fail to serve individual user needs effectively. These findings suggest personalized reasoning requires dedicated development rather than emerging naturally. PREFDISCO establishes personalized reasoning as a measurable research frontier and reveals fundamental limitations in current LLMs' interactive capabilities, providing a foundation for developing systems that can adapt to individual users in education, healthcare, and technical domains where personalization is critical.