Beyond Static Dialogues: Benchmarking Realistic, Heterogeneous, and Evolving Long-Term Memory
作者: Han Zhang, Zihao Tang, Xin Yu, Xiao Liu, Yeyun Gong, Haizhen Huang, Yan Lu, Weiwei Deng, Feng Sun, Qi Zhang, Hanfang Yang
分类: cs.CL, cs.IR
发布日期: 2026-05-29
💡 一句话要点
提出RHELM基准,评估LLM在真实异构演化长期记忆场景下的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长期记忆 大型语言模型 基准测试 异构数据 对话系统
📋 核心要点
- 现有LLM记忆基准缺乏长期语义一致性和动态的人物设定,难以反映真实场景。
- 提出RHELM基准,通过LOOP模块构建真实、异构、演化的长期记忆对话。
- 实验表明,现有方法在多源聚合和真实世界上下文推理方面存在不足。
📝 摘要(中文)
现有大型语言模型(LLM)的记忆基准通常缺乏长期语义一致性,且人物设定扁平静态。真实场景中,用户与助手的交互涉及文档、邮件等异构数据流。为解决这些局限,我们引入RHELM(Realistic, Heterogeneous, and Evolving Long-term Memory)基准。通过精心设计的用户画像和LOOP(pLan-rOllout-evOlve-Prune)模块,构建了具有动态时间演化和长期连贯性的真实对话。这些对话与用户的时序事件轨迹同步的异构外部数据源深度集成。该基准包含七种查询类型的挑战性问答对,每个问题映射到至少27个关键记忆特征,这些特征在当前研究中被认为是重要的但未被充分探索的。对全上下文模型、检索增强生成(RAG)方法和代表性记忆框架的综合实验表明,现有方法在复杂的真实场景中仍然存在关键弱点,尤其是在解决多源聚合和真实世界上下文推理方面。
🔬 方法详解
问题定义:现有LLM的记忆能力评估主要集中在静态对话场景,忽略了真实世界中长期记忆的动态演化和异构信息融合。现有方法难以处理长期语义一致性、人物设定的复杂性以及多源信息的整合,导致评估结果与实际应用存在差距。
核心思路:RHELM基准的核心在于模拟真实世界的长期记忆场景,通过精心设计的用户画像和LOOP模块,生成具有时间演化和长期连贯性的对话。同时,将异构外部数据源(如文档、邮件)与用户的时序事件轨迹同步,构建更贴近真实应用的评估环境。
技术框架:RHELM基准的核心是LOOP模块,它包含四个阶段:计划(pLan)、展开(rOllout)、演化(evOlve)和修剪(Prune)。首先,根据用户画像制定对话计划。然后,根据计划展开对话,生成多轮对话历史。接着,根据时间推移和外部信息,演化用户画像和对话内容。最后,修剪不相关的信息,保持对话的连贯性和一致性。整个框架旨在模拟真实世界中长期记忆的形成和演化过程。
关键创新:RHELM基准的关键创新在于其真实性、异构性和演化性。它不仅考虑了对话的长期语义一致性,还引入了异构外部数据源,并模拟了用户画像和对话内容的动态演化。此外,RHELM基准还定义了27个关键记忆特征,为LLM的记忆能力评估提供了更细粒度的指标。
关键设计:LOOP模块中的计划阶段根据用户画像生成对话计划,包括对话的主题、目标和参与者。展开阶段使用LLM生成多轮对话,并记录对话历史。演化阶段根据时间推移和外部信息,更新用户画像和对话内容。修剪阶段使用LLM过滤掉不相关的信息,保持对话的连贯性和一致性。具体参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
在RHELM基准上的实验表明,现有全上下文模型、RAG方法和代表性记忆框架在处理多源聚合和真实世界上下文推理方面存在明显不足。具体性能数据和提升幅度在论文中未详细说明,属于未知信息。该基准的提出为LLM的长期记忆能力评估提供了一个更具挑战性和现实意义的平台。
🎯 应用场景
RHELM基准可用于评估和提升LLM在长期对话、智能助手、知识图谱构建等领域的应用性能。通过更真实的评估,可以推动LLM在处理复杂、动态和异构信息方面的能力,从而提升用户体验和应用价值。该基准还有助于研究长期记忆的机制,为开发更智能的AI系统提供理论指导。
📄 摘要(原文)
In existing memory benchmarks for Large Language Models (LLMs), the evaluated dialogue sessions often lack long-term semantic consistency, and the underlying personas tend to be flat and static. Furthermore, in real-world scenarios, interactions between users and assistants involve more diverse, heterogeneous data streams, such as documents and emails. These shortcomings significantly limit the realism and effectiveness of current evaluations. To address these limitations, we introduce RHELM (Realistic, Heterogeneous, and Evolving Long-term Memory). Driven by meticulously crafted user profiles and a novel LOOP (pLan-rOllout-evOlve-Prune) module, we construct realistic dialogues across diverse interaction scenarios that exhibit dynamic temporal evolution and long-term coherence. Crucially, these dialogues are deeply integrated with heterogeneous external sources synchronized with the user's temporal event trajectory. The resulting benchmark encompasses challenging question-answer pairs spanning seven inquiry types, with each question mapping to at least one of 27 critical memory characteristics that we identify as essential yet underexplored in current research. Comprehensive experiments across full-context models, retrieval-augmented generation (RAG) methods, and representative memory frameworks reveal that contemporary approaches still expose critical weaknesses in complex, real-world settings, particularly in resolving multi-source aggregation and real-world contextual reasoning.