PERMA: Benchmarking Personalized Memory Agents via Event-Driven Preference and Realistic Task Environments

📄 arXiv: 2603.23231v1 📥 PDF

作者: Shuochen Liu, Junyi Zhu, Long Shu, Junda Lin, Yuhao Chen, Haotian Zhang, Chao Zhang, Derong Xu, Jia Li, Bo Tang, Zhiyu Li, Feiyu Xiong, Enhong Chen, Tong Xu

分类: cs.AI

发布日期: 2026-03-24

🔗 代码/项目: GITHUB


💡 一句话要点

PERMA:通过事件驱动偏好和真实任务环境评估个性化记忆代理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 个性化记忆代理 长期记忆 用户偏好 事件驱动 基准测试

📋 核心要点

  1. 现有评估方法将偏好对话与无关对话混杂,忽略了用户偏好随事件演变的特性,导致个性化评估不准确。
  2. PERMA基准通过模拟真实用户交互,引入时间顺序事件、文本可变性和语言对齐,更真实地评估角色一致性。
  3. 实验表明,链接相关交互的记忆系统能更精确提取偏好并减少token消耗,但仍需提升跨时间和跨域的角色一致性。

📝 摘要(中文)

为大型语言模型赋予长期记忆对于构建能够适应用户不断变化的需求的代理至关重要。然而,先前的评估通常将偏好相关的对话与不相关的对话交织在一起,将任务简化为大海捞针式的检索,而忽略了驱动用户偏好演变的不同事件之间的关系。这种设置忽略了现实世界个性化的一个基本特征:偏好在嘈杂的上下文中逐渐产生并在交互中积累。为了弥合这一差距,我们引入了PERMA,这是一个旨在评估超越静态偏好回忆的、随时间推移的角色一致性的基准。此外,我们还结合了(1)文本可变性和(2)语言对齐,以模拟真实世界数据中不稳定的用户输入和个人习语。PERMA由跨多个会话和领域的按时间顺序排列的交互事件组成,并在一段时间内插入与偏好相关的查询。我们设计了多项选择和交互式任务,以探测模型对沿交互时间线的角色的理解。实验表明,通过链接相关的交互,先进的记忆系统可以提取更精确的偏好并减少token消耗,优于传统的原始对话的语义检索。然而,它们仍然难以在时间深度和跨域干扰中保持一致的角色,突出了代理中需要更强大的个性化记忆管理。我们的代码和数据已在https://github.com/PolarisLiu1/PERMA上开源。

🔬 方法详解

问题定义:现有方法在评估个性化记忆代理时,未能充分考虑用户偏好随时间演变和在不同领域间的关联性。它们通常将偏好相关的对话与无关信息混杂,使得模型难以捕捉到用户真实意图,导致评估结果失真。此外,真实用户交互具有文本多样性和语言风格差异,现有方法也缺乏对这些因素的模拟。

核心思路:PERMA的核心思路是通过构建一个更贴近真实用户交互场景的基准,来更全面地评估个性化记忆代理的能力。该基准强调事件驱动的偏好演变,模拟用户在不同会话和领域内的交互,并引入文本可变性和语言对齐,以增加评估的真实性和挑战性。

技术框架:PERMA基准包含以下主要组成部分:1) 按时间顺序排列的交互事件,跨越多个会话和领域;2) 插入在不同时间点的偏好相关查询,用于探测模型对用户角色的理解;3) 文本可变性,模拟用户输入的不确定性;4) 语言对齐,模拟不同用户的语言风格。评估任务包括多项选择和交互式任务,旨在评估模型在不同时间深度和跨域干扰下的角色一致性。

关键创新:PERMA的关键创新在于其对真实用户交互的模拟,以及对事件驱动偏好演变的强调。与现有方法相比,PERMA更关注用户偏好在时间上的积累和在不同领域间的关联,从而能够更准确地评估个性化记忆代理的性能。此外,PERMA引入的文本可变性和语言对齐也增加了评估的难度和真实性。

关键设计:PERMA的数据集构建过程涉及多个步骤,包括用户角色定义、交互事件生成、偏好查询插入、文本可变性添加和语言对齐。具体的技术细节包括:使用预训练语言模型生成交互事件,使用规则和模板生成偏好查询,使用数据增强技术增加文本可变性,使用语言模型进行语言风格迁移。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过链接相关交互,先进的记忆系统能够提取更精确的偏好,并减少token消耗,优于传统的语义检索方法。然而,这些系统在保持跨时间深度和跨域干扰的角色一致性方面仍然面临挑战,表明需要更强大的个性化记忆管理机制。具体而言,某些先进模型在特定任务上取得了显著提升,但整体性能仍有待提高。

🎯 应用场景

PERMA基准的潜在应用领域包括个性化推荐系统、智能对话代理、用户画像构建等。通过更准确地评估个性化记忆代理的性能,可以帮助研究人员开发更智能、更贴近用户需求的AI系统。该研究的实际价值在于提升用户体验,提高AI系统的效率和可靠性。未来,PERMA可以扩展到更多领域和任务,例如个性化教育、医疗健康等。

📄 摘要(原文)

Empowering large language models with long-term memory is crucial for building agents that adapt to users' evolving needs. However, prior evaluations typically interleave preference-related dialogues with irrelevant conversations, reducing the task to needle-in-a-haystack retrieval while ignoring relationships between events that drive the evolution of user preferences. Such settings overlook a fundamental characteristic of real-world personalization: preferences emerge gradually and accumulate across interactions within noisy contexts. To bridge this gap, we introduce PERMA, a benchmark designed to evaluate persona consistency over time beyond static preference recall. Additionally, we incorporate (1) text variability and (2) linguistic alignment to simulate erratic user inputs and individual idiolects in real-world data. PERMA consists of temporally ordered interaction events spanning multiple sessions and domains, with preference-related queries inserted over time. We design both multiple-choice and interactive tasks to probe the model's understanding of persona along the interaction timeline. Experiments demonstrate that by linking related interactions, advanced memory systems can extract more precise preferences and reduce token consumption, outperforming traditional semantic retrieval of raw dialogues. Nevertheless, they still struggle to maintain a coherent persona across temporal depth and cross-domain interference, highlighting the need for more robust personalized memory management in agents. Our code and data are open-sourced at https://github.com/PolarisLiu1/PERMA.