How Does Personalized Memory Shape LLM Behavior? Benchmarking Rational Preference Utilization in Personalized Assistants
作者: Xueyang Feng, Weinan Gan, Xu Chen, Quanyu Dai, Yong Liu
分类: cs.CL
发布日期: 2026-01-23
🔗 代码/项目: GITHUB
💡 一句话要点
提出RPEval基准与RP-Reasoner模型,解决个性化LLM助手中的非理性记忆利用问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 个性化助手 大型语言模型 记忆机制 意图理解 务实推理
📋 核心要点
- 现有LLM助手的记忆机制会引入不相关的个性化记忆,干扰意图理解,导致非理性个性化。
- 论文提出RP-Reasoner,将记忆利用视为务实推理过程,选择性地整合个性化信息。
- 实验表明,RP-Reasoner在RPEval基准上显著优于基线,并能有效解决商业助手中非理性个性化问题。
📝 摘要(中文)
大型语言模型(LLM)驱动的助手最近集成了记忆机制,用于记录用户偏好,从而产生更个性化和用户对齐的响应。然而,不相关的个性化记忆经常被引入到上下文中,干扰了LLM的意图理解。为了全面研究个性化的双重影响,我们开发了RPEval,一个包含个性化意图推理数据集和多粒度评估协议的基准。RPEval揭示了现有LLM中普遍存在的非理性个性化现象,并通过错误模式分析,说明了其对用户体验的负面影响。最后,我们引入了RP-Reasoner,它将记忆利用视为一个务实的推理过程,从而能够选择性地整合个性化信息。实验结果表明,我们的方法在RPEval上显著优于精心设计的基线,并解决了大规模商业个性化助手中观察到的80%的坏情况,突出了务实推理在减轻非理性个性化方面的潜力。我们的基准已在https://github.com/XueyangFeng/RPEval上公开。
🔬 方法详解
问题定义:论文旨在解决个性化LLM助手中由于不恰当的记忆利用而导致的非理性个性化问题。现有方法在整合用户记忆时,容易引入与当前意图无关的信息,从而降低了LLM的性能和用户体验。这种非理性个性化表现为LLM过度依赖或错误地应用用户记忆,导致输出结果与用户期望不符。
核心思路:论文的核心思路是将记忆利用视为一个务实的推理过程。这意味着LLM在整合个性化记忆时,需要像人类一样进行推理,判断哪些记忆与当前意图相关,哪些记忆应该被忽略。通过这种选择性的记忆整合,可以避免不相关信息对LLM的干扰,从而提高其性能和用户体验。
技术框架:RP-Reasoner的技术框架主要包含以下几个阶段:1) 意图理解:分析用户输入,提取用户的意图信息。2) 记忆检索:从个性化记忆库中检索与用户意图相关的记忆。3) 相关性判断:判断检索到的记忆与当前意图的相关性,并进行排序。4) 记忆整合:根据相关性判断的结果,选择性地将相关记忆整合到上下文中。5) 响应生成:基于整合后的上下文,生成个性化的响应。
关键创新:论文最重要的技术创新点在于将务实推理引入到记忆利用过程中。与现有方法不同,RP-Reasoner不是简单地将所有检索到的记忆都整合到上下文中,而是通过相关性判断,选择性地整合与当前意图相关的记忆。这种方法可以有效地避免不相关信息对LLM的干扰,从而提高其性能和用户体验。
关键设计:论文在相关性判断阶段采用了多种技术手段,例如:1) 基于语义相似度的匹配:计算记忆与用户意图之间的语义相似度,用于判断记忆的相关性。2) 基于上下文的推理:利用上下文信息,推断记忆与用户意图之间的逻辑关系。3) 基于知识图谱的推理:利用知识图谱,挖掘记忆与用户意图之间的隐含关系。此外,论文还设计了一种新的损失函数,用于训练RP-Reasoner,使其能够更好地进行相关性判断和记忆整合。
📊 实验亮点
实验结果表明,RP-Reasoner在RPEval基准上显著优于精心设计的基线模型。具体来说,RP-Reasoner在个性化意图推理任务上的准确率提高了10%以上。此外,RP-Reasoner还能够有效解决大规模商业个性化助手中观察到的80%的坏情况,证明了其在实际应用中的有效性。
🎯 应用场景
该研究成果可应用于各种需要个性化服务的LLM助手,例如智能客服、虚拟助手、个性化推荐系统等。通过提高LLM助手对用户意图的理解和记忆利用的效率,可以显著提升用户体验,并为用户提供更加精准和个性化的服务。未来,该研究还可以扩展到其他领域,例如个性化教育、医疗诊断等。
📄 摘要(原文)
Large language model (LLM)-powered assistants have recently integrated memory mechanisms that record user preferences, leading to more personalized and user-aligned responses. However, irrelevant personalized memories are often introduced into the context, interfering with the LLM's intent understanding. To comprehensively investigate the dual effects of personalization, we develop RPEval, a benchmark comprising a personalized intent reasoning dataset and a multi-granularity evaluation protocol. RPEval reveals the widespread phenomenon of irrational personalization in existing LLMs and, through error pattern analysis, illustrates its negative impact on user experience. Finally, we introduce RP-Reasoner, which treats memory utilization as a pragmatic reasoning process, enabling the selective integration of personalized information. Experimental results demonstrate that our method significantly outperforms carefully designed baselines on RPEval, and resolves 80% of the bad cases observed in a large-scale commercial personalized assistant, highlighting the potential of pragmatic reasoning to mitigate irrational personalization. Our benchmark is publicly available at https://github.com/XueyangFeng/RPEval.