HiGMem: A Hierarchical and LLM-Guided Memory System for Long-Term Conversational Agents
作者: Shuqi Cao, Jingyi He, Fei Tan
分类: cs.CL
发布日期: 2026-04-20
备注: Accepted to Findings of the Association for Computational Linguistics: ACL 2026. Camera-ready version. 10 pages, 2 figures. Code: https://github.com/ZeroLoss-Lab/HiGMem
🔗 代码/项目: GITHUB
💡 一句话要点
提出HiGMem:一种层级化和LLM引导的记忆系统,用于长期对话Agent。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长期对话Agent 记忆系统 层级记忆 LLM引导 信息检索 事件摘要 对话历史
📋 核心要点
- 现有长期对话Agent的记忆系统依赖向量相似度检索,导致证据集臃肿,精度降低,成本增加。
- HiGMem利用LLM以事件摘要为锚点,预测相关轮次,实现更精准、高效的证据检索。
- 实验表明,HiGMem在LoCoMo10上显著提升F1分数,并大幅减少检索轮次,优于现有方法。
📝 摘要(中文)
长期的对话大语言模型(LLM)Agent需要记忆系统,该系统能够从历史交互中恢复相关证据,而不会用不相关的上下文淹没答案生成阶段。然而,现有的记忆系统,包括层级化的系统,仍然常常仅仅依赖于向量相似性进行检索。这往往会产生臃肿的证据集:添加许多表面上相似的对话轮次几乎没有增加召回率,反而降低了检索精度,增加了答案生成阶段的上下文成本,并使检索到的记忆更难检查和管理。为了解决这个问题,我们提出了HiGMem(层级化和LLM引导的记忆系统),一个双层事件-轮次记忆系统,它允许LLM使用事件摘要作为语义锚点来预测哪些相关的轮次值得阅读。这使得模型能够首先检查高层事件摘要,然后专注于一小部分潜在有用的轮次,通过推理提供简洁而可靠的证据集,同时避免了相比于向量检索而言过高的检索开销。在LoCoMo10基准测试中,HiGMem在五个问题类别中的四个上实现了最佳的F1分数,并且相对于A-Mem,对抗性F1从0.54提高到0.78,同时检索的轮次减少了一个数量级。代码已在https://github.com/ZeroLoss-Lab/HiGMem公开。
🔬 方法详解
问题定义:论文旨在解决长期对话Agent中,现有记忆系统依赖向量相似度检索导致的证据集臃肿、检索精度低、上下文成本高的问题。现有方法难以有效区分相关和不相关信息,导致检索效率低下,影响Agent的性能。
核心思路:论文的核心思路是引入层级化的记忆结构,并利用LLM的推理能力来引导记忆检索。通过将对话历史组织成事件和轮次两个层级,并使用LLM对事件进行摘要,可以更有效地定位到相关的对话轮次,避免不必要的检索开销。
技术框架:HiGMem包含两个主要层级:事件层和轮次层。首先,对话历史被分割成不同的事件,每个事件由LLM进行摘要。在检索阶段,LLM首先根据当前对话上下文和事件摘要,预测哪些事件可能包含相关信息。然后,对于选定的事件,LLM进一步预测哪些轮次是相关的。最后,将选定的轮次作为证据提供给答案生成模型。
关键创新:HiGMem的关键创新在于利用LLM的推理能力来指导记忆检索,而不是仅仅依赖于向量相似度。通过事件摘要和LLM的预测,可以更有效地过滤掉不相关的信息,提高检索精度和效率。此外,层级化的记忆结构也使得记忆的管理和维护更加方便。
关键设计:事件分割和摘要的质量对HiGMem的性能至关重要。论文中可能使用了启发式规则或训练好的模型来进行事件分割。LLM的选择和训练也需要仔细考虑,以确保其能够准确地进行事件摘要和相关性预测。具体的损失函数和训练策略在论文中应该有详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
HiGMem在LoCoMo10基准测试中,在五个问题类别中的四个上取得了最佳的F1分数。更重要的是,HiGMem将对抗性F1从A-Mem的0.54提高到了0.78,同时检索的轮次减少了一个数量级。这表明HiGMem在提高检索精度和效率方面具有显著优势。
🎯 应用场景
HiGMem可应用于各种需要长期记忆的对话Agent,例如智能客服、虚拟助手、教育机器人等。通过更有效地管理和检索对话历史,可以提高Agent的对话质量、用户满意度和问题解决能力。该研究对于提升人机交互的自然性和智能化水平具有重要意义。
📄 摘要(原文)
Long-term conversational large language model (LLM) agents require memory systems that can recover relevant evidence from historical interactions without overwhelming the answer stage with irrelevant context. However, existing memory systems, including hierarchical ones, still often rely solely on vector similarity for retrieval. It tends to produce bloated evidence sets: adding many superficially similar dialogue turns yields little additional recall, but lowers retrieval precision, increases answer-stage context cost, and makes retrieved memories harder to inspect and manage. To address this, we propose HiGMem (Hierarchical and LLM-Guided Memory System), a two-level event-turn memory system that allows LLMs to use event summaries as semantic anchors to predict which related turns are worth reading. This allows the model to inspect high-level event summaries first and then focus on a smaller set of potentially useful turns, providing a concise and reliable evidence set through reasoning, while avoiding the retrieval overhead that would be excessively high compared to vector retrieval. On the LoCoMo10 benchmark, HiGMem achieves the best F1 on four of five question categories and improves adversarial F1 from 0.54 to 0.78 over A-Mem, while retrieving an order of magnitude fewer turns. Code is publicly available at https://github.com/ZeroLoss-Lab/HiGMem.