Is One Score Enough? Rethinking the Evaluation of Sequentially Evolving LLM Memory

📄 arXiv: 2605.15384v1 📥 PDF

作者: Songwei Dong, Zihan Chen, Chengshuai Shi, Peng Wang, Jundong Li, Cong Shen

分类: cs.LG, cs.AI

发布日期: 2026-05-14

备注: 29 pages, 13 figures


💡 一句话要点

SeqMem-Eval:用于诊断评估LLM序列记忆的细粒度框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 序列记忆 持续学习 评估框架 遗忘 负迁移 在线学习 诊断评估

📋 核心要点

  1. 现有LLM记忆评估侧重于最终性能,忽略了遗忘、负迁移等关键问题,无法全面评估记忆质量。
  2. SeqMem-Eval框架通过借鉴持续学习思想,细粒度地评估LLM在序列推理中的记忆演变、泛化和巩固能力。
  3. 实验表明,高最终性能不代表高质量记忆,不同记忆设计在适应性和稳定性间存在权衡。

📝 摘要(中文)

大型语言模型(LLM)的记忆在处理序列任务中起着核心作用,它能够随着时间的推移积累和重用经验。然而,现有的LLM记忆评估主要依赖于最终的准确率或累积的在线性能等聚合指标,这可能会掩盖关键的失败模式,如遗忘和负迁移。本文提出了SeqMem-Eval,一个用于诊断评估LLM序列记忆的框架。它借鉴了持续学习的思想,针对一种测试时场景,其中记忆是外部的、由提示介导的,并且在不修改模型参数的情况下进行更新。SeqMem-Eval 不仅关注最终性能,还评估记忆状态如何演变、泛化、巩固经验以及在序列推理过程中保留有用信息。具体来说,它测量在线效用、保持泛化、后向迁移和遗忘,从而提供更细粒度的记忆质量视图。通过对各种任务和记忆方法进行广泛的实验,我们表明更高的最终或累积准确率并不一定意味着更好的记忆质量:许多方法在获得强大性能提升的同时,遭受了大量的遗忘或负迁移。此外,不同的记忆设计在适应性和稳定性之间表现出明显的权衡,这在标准评估指标下仍然是不可见的。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)记忆评估方法,如最终准确率或累积在线性能,无法充分揭示记忆的内部工作机制。这些指标忽略了诸如遗忘、负迁移等关键问题,使得我们难以诊断和改进LLM的记忆能力。现有方法无法区分是模型本身的能力提升,还是记忆模块的有效运作带来的性能提升。

核心思路:SeqMem-Eval的核心思路是借鉴持续学习领域的评估方法,将LLM的记忆视为一个动态演化的过程,并从多个维度对其进行评估。通过模拟序列任务中的数据流,SeqMem-Eval能够更细致地观察记忆状态的演变,从而揭示潜在的遗忘、负迁移等问题。该框架强调对记忆模块的独立评估,使其与LLM本身的能力解耦。

技术框架:SeqMem-Eval框架包含以下几个主要模块:1) 序列任务生成器:用于生成具有时间依赖性的序列任务。2) 记忆模块:用于存储和检索LLM在序列推理过程中产生的知识。3) 提示构建器:根据当前任务和记忆状态,构建合适的提示输入LLM。4) 评估指标计算器:计算在线效用、保持泛化、后向迁移和遗忘等指标。整体流程是,首先生成序列任务,然后LLM基于当前记忆进行推理,并将新的知识存储到记忆模块中。最后,评估指标计算器根据LLM的性能和记忆状态的变化,计算各项评估指标。

关键创新:SeqMem-Eval的关键创新在于其诊断性的评估方法。它不仅关注最终的性能,更关注记忆状态的演变过程。通过引入在线效用、保持泛化、后向迁移和遗忘等指标,SeqMem-Eval能够更全面地评估LLM的记忆质量。此外,SeqMem-Eval强调对记忆模块的独立评估,使其与LLM本身的能力解耦,从而更准确地评估记忆模块的性能。

关键设计:SeqMem-Eval的关键设计包括:1) 记忆更新策略:不同的记忆更新策略(如先进先出、最近最少使用等)会对记忆的性能产生重要影响。2) 提示构建方法:如何将记忆中的知识有效地融入到提示中,是影响LLM性能的关键。3) 评估指标的定义:在线效用、保持泛化、后向迁移和遗忘等指标的定义需要仔细考虑,以确保能够准确地反映记忆的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使最终准确率很高,许多记忆方法仍然存在严重的遗忘或负迁移问题。例如,一些方法在提高在线效用的同时,会显著降低后向迁移能力。不同记忆设计在适应性和稳定性之间存在权衡,而这些权衡在传统的评估指标下是无法观察到的。SeqMem-Eval能够有效地揭示这些隐藏的问题,为记忆方法的设计和选择提供指导。

🎯 应用场景

SeqMem-Eval可用于评估和优化各种基于LLM的序列任务应用,例如对话系统、智能助手和机器人。通过诊断记忆模块的不足,可以改进LLM在长期交互中的表现,提升用户体验。该框架还有助于开发更稳定、可靠的LLM,减少遗忘和负迁移等问题,促进LLM在实际场景中的广泛应用。

📄 摘要(原文)

Memory plays a central role in enabling large language models (LLMs) to operate over sequential tasks by accumulating and reusing experience over time. However, existing evaluations of LLM memory mostly rely on aggregate metrics such as final hold-out accuracy or cumulative online performance, which can obscure critical failure modes such as forgetting and negative transfer. In this paper, we introduce SeqMem-Eval, a diagnostic evaluation framework for sequentially evolving LLM memory. Drawing inspiration from continual learning, it targets a test-time setting in which memory is external, prompt-mediated, and updated without modifying model parameters. Rather than focusing only on final performance, SeqMem-Eval evaluates how memory states evolve, generalize, consolidate experience, and retain useful information during sequential inference. Specifically, it measures online utility, hold-out generalization, backward transfer, and forgetting, providing a finer-grained view of memory quality. Through extensive experiments across diverse tasks and memory methods, we show that higher final or cumulative accuracy does not necessarily imply better memory quality: many methods exhibit strong performance gains while suffering from substantial forgetting or negative transfer. Moreover, different memory designs exhibit distinct trade-offs between adaptability and stability that remain invisible under standard evaluation metrics.