DeferMem: Query-Time Evidence Distillation via Reinforcement Learning for Long-Term Memory QA
作者: Jianing Yin, Tan Tang
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-05-21
备注: 31 pages, 3 figures
💡 一句话要点
提出DeferMem,通过强化学习进行查询时证据提炼,解决长时记忆问答问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长时记忆问答 强化学习 证据提炼 查询时处理 DistillPO
📋 核心要点
- 现有长时记忆问答系统难以从冗长对话历史中提取关键证据,导致下游回答器需要进行大量去噪和重建工作。
- DeferMem通过解耦候选检索和查询条件下的证据提炼,利用强化学习算法DistillPO训练记忆提炼器,提取高质量证据。
- 实验表明,DeferMem在QA准确性和记忆系统效率方面均优于现有方法,且无需商业API token成本。
📝 摘要(中文)
大型语言模型(LLM)Agent在长时记忆问答方面仍然面临挑战,因为答案相关的证据通常分散在冗长的对话历史中,并被大量无关内容掩盖。现有的记忆系统通常在未来的查询未知的情况下处理记忆,然后基于相似性而非回答查询的效用检索结果单元。这种工作流程使得下游的回答器需要去噪检索到的候选信息并重建特定于查询的证据。我们提出了DeferMem,一个长时记忆框架,将这个问题解耦为高召回率的候选检索和查询条件下的证据提炼。DeferMem使用轻量级的段-链接结构来组织原始历史记录,并在查询时检索广泛的候选信息。然后,它应用一个使用DistillPO训练的记忆提炼器,DistillPO是我们的强化学习算法,用于将高召回率但高度嘈杂的候选信息提炼成一组忠实的、独立的和查询条件下的证据。DistillPO将检索后的证据提炼形式化为一个结构化动作,包括消息选择和证据重写。它使用分解和门控的奖励管道以及结构对齐的优势分配来优化此动作,从有效性到质量检查门控奖励组件,同时尽早暴露任务级别的正确性反馈,并将每个奖励分配给其负责的输出范围。在LoCoMo和LongMemEval-S上,DeferMem在QA准确性和记忆系统效率方面超越了强大的基线,以最快的运行时间和零商业API token成本实现了最高的QA准确性。
🔬 方法详解
问题定义:现有长时记忆问答系统在处理冗长对话历史时,难以准确高效地提取支持答案的关键证据。这些系统通常在查询未知的情况下预处理记忆,然后基于相似性检索信息,导致检索结果包含大量噪声,下游回答器需要进行大量的去噪和证据重建工作,效率低下。
核心思路:DeferMem的核心思路是将长时记忆问答过程分解为两个阶段:高召回率的候选检索和查询条件下的证据提炼。首先,通过轻量级的段-链接结构组织原始对话历史,并在查询时检索广泛的候选信息,保证召回率。然后,利用强化学习训练的记忆提炼器,将这些高召回率但高度嘈杂的候选信息提炼成一组忠实的、独立的和查询条件下的证据。这种解耦的方式使得系统能够专注于提取与当前查询最相关的证据,提高问答准确性和效率。
技术框架:DeferMem的整体框架包含以下几个主要模块:1) 记忆组织:使用轻量级的段-链接结构来组织原始对话历史,方便快速检索。2) 候选检索:在查询时,基于查询内容从记忆中检索出高召回率的候选信息。3) 证据提炼:使用基于DistillPO训练的记忆提炼器,将候选信息提炼成一组忠实的、独立的和查询条件下的证据。4) 问答:利用提炼出的证据进行问答。
关键创新:DeferMem的关键创新在于其查询时证据提炼机制,以及用于训练记忆提炼器的强化学习算法DistillPO。DistillPO将证据提炼过程形式化为一个结构化动作,包括消息选择和证据重写,并通过分解和门控的奖励管道以及结构对齐的优势分配来优化此动作。这种方法能够有效地从高噪声的候选信息中提取出高质量的证据。
关键设计:DistillPO的关键设计包括:1) 分解和门控的奖励管道:将奖励分解为多个组件,包括有效性、质量等,并使用门控机制控制每个组件的贡献,从而实现更精细的奖励信号。2) 结构对齐的优势分配:根据输出结构的特点,将奖励分配给负责的输出范围,从而提高训练效率。3) 消息选择和证据重写:将证据提炼过程建模为消息选择和证据重写两个动作,使得系统能够更灵活地提取和组织证据。
🖼️ 关键图片
📊 实验亮点
DeferMem在LoCoMo和LongMemEval-S数据集上取得了显著的性能提升。具体来说,DeferMem在QA准确性方面超越了现有的强大基线,同时实现了最快的运行速度,并且无需使用商业API token进行记忆操作,大大降低了成本。这些结果表明,DeferMem是一种高效、准确且经济的长时记忆问答解决方案。
🎯 应用场景
DeferMem具有广泛的应用前景,例如智能客服、对话式AI、智能助手等。它可以帮助这些系统更准确、高效地回答用户的问题,尤其是在需要处理大量历史对话信息的场景下。此外,该方法还可以应用于其他需要从大量信息中提取关键证据的任务,例如信息检索、文档摘要等。
📄 摘要(原文)
Large language model (LLM) agents still struggle with long-term memory question answering, where answer-supporting evidence is often scattered across long conversational histories and buried in substantial irrelevant content. Existing memory systems typically process memory before future queries are known, then retrieve the resulting units based on similarity rather than their utility for answering the query. This workflow leaves downstream answerers to denoise retrieved candidates and reconstruct query-specific evidence. We present DeferMem, a long-term memory framework that decouples this problem into high-recall candidate retrieval and query-conditioned evidence distillation. DeferMem uses a lightweight segment-link structure to organize raw history and retrieve broad candidates at query time. It then applies a memory distiller trained with DistillPO, our reinforcement learning algorithm for distilling the high-recall but highly noisy candidates into a set of faithful, self-contained, and query-conditioned evidence. DistillPO formulates post-retrieval evidence distillation as a structured action comprising message selection and evidence rewriting. It optimizes this action with a decomposed-and-gated reward pipeline and structure-aligned advantage assignment, gating reward components from validity to quality checks while exposing task-level correctness feedback early and assigning each reward to its responsible output span. On LoCoMo and LongMemEval-S, DeferMem surpasses strong baselines in QA accuracy and memory-system efficiency, achieving the highest QA accuracy with the fastest runtime and zero commercial-API token cost for memory operations.