MemGuide: Intent-Driven Memory Selection for Goal-Oriented Multi-Session LLM Agents

📄 arXiv: 2505.20231v2 📥 PDF

作者: Yiming Du, Bingbing Wang, Yang He, Bin Liang, Baojun Wang, Zhongyang Li, Lin Gui, Jeff Z. Pan, Ruifeng Xu, Kam-Fai Wong

分类: cs.CL

发布日期: 2025-05-26 (更新: 2025-08-13)


💡 一句话要点

提出MemGuide框架,通过意图驱动的记忆选择提升多轮对话LLM智能体的任务连贯性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多轮对话 任务型对话 意图驱动 记忆选择 检索增强生成

📋 核心要点

  1. 现有TOD系统依赖语义相似性检索记忆,忽略了多轮对话中的任务意图,导致任务连贯性降低。
  2. MemGuide框架通过意图对齐检索和缺失槽引导过滤,选择与当前对话意图相关的记忆单元。
  3. 在MS-TOD基准测试中,MemGuide将任务成功率提升11%,并减少了2.84轮对话长度。

📝 摘要(中文)

现代面向任务的对话(TOD)系统越来越多地依赖于大型语言模型(LLM)智能体,利用检索增强生成(RAG)和长上下文能力来利用长期记忆。然而,这些方法主要基于语义相似性,忽略了任务意图,降低了多会话对话中的任务连贯性。为了解决这个挑战,我们引入了MemGuide,一个用于意图驱动的记忆选择的两阶段框架。(1) 意图对齐检索将当前对话上下文与记忆库中存储的意图描述进行匹配,检索共享相同目标的QA格式的记忆单元。(2) 缺失槽引导过滤采用链式思考槽推理器来枚举未填充的槽,然后使用微调的LLaMA-8B过滤器,通过边际槽完成增益对检索到的单元进行重新排序。由此产生的记忆单元为一种主动策略提供信息,该策略通过直接解决信息差距来最小化对话轮数。基于此框架,我们引入了MS-TOD,这是第一个多会话TOD基准,包含132个不同的人物角色,956个任务目标和带注释的意图对齐记忆目标,支持高效的多会话任务完成。在MS-TOD上的评估表明,MemGuide将任务成功率提高了11%(88% -> 99%),并在多会话设置中减少了2.84轮对话长度,同时保持了与单会话基准的对等性。

🔬 方法详解

问题定义:现有面向任务的对话系统在多轮对话中,尤其是在跨会话场景下,难以保持任务的连贯性。现有方法主要依赖于语义相似度进行记忆检索,忽略了对话的意图,导致检索到的信息与当前任务目标关联性较弱,影响任务完成的效率和成功率。

核心思路:MemGuide的核心思路是利用对话意图来指导记忆的选择过程。通过将对话上下文与存储的意图描述进行匹配,并结合缺失槽信息进行过滤,从而选择出与当前任务目标最相关的记忆单元。这种方法能够更好地捕捉对话的上下文信息,提高任务的连贯性和效率。

技术框架:MemGuide框架包含两个主要阶段:意图对齐检索和缺失槽引导过滤。首先,意图对齐检索模块将当前对话上下文与记忆库中存储的意图描述进行匹配,检索出共享相同目标的QA格式的记忆单元。然后,缺失槽引导过滤模块采用链式思考槽推理器来枚举未填充的槽,并使用微调的LLaMA-8B过滤器,通过边际槽完成增益对检索到的单元进行重新排序。最终,选择出的记忆单元用于指导对话生成,以最小化对话轮数。

关键创新:MemGuide的关键创新在于其意图驱动的记忆选择机制。与传统的基于语义相似度的检索方法不同,MemGuide更加关注对话的意图,从而能够更准确地选择出与当前任务目标相关的记忆单元。此外,缺失槽引导过滤模块能够有效地识别对话中的信息缺口,并选择能够填补这些缺口的记忆单元,从而提高任务完成的效率。

关键设计:意图对齐检索模块使用预训练的语言模型来编码对话上下文和意图描述,并通过相似度计算来匹配两者。缺失槽引导过滤模块使用链式思考槽推理器来枚举未填充的槽,并使用微调的LLaMA-8B过滤器来评估每个记忆单元的边际槽完成增益。LLaMA-8B的微调目标是预测给定记忆单元能够填充哪些槽位,从而实现更精确的记忆选择。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在MS-TOD基准测试中,MemGuide显著提升了任务成功率和对话效率。具体而言,任务成功率从88%提升至99%,提升幅度达11%。同时,多会话场景下的平均对话轮数减少了2.84轮。这些结果表明,MemGuide在多轮对话任务中具有显著的优势。

🎯 应用场景

MemGuide框架可应用于各种面向任务的对话系统,例如智能客服、虚拟助手和任务型机器人。通过提高多轮对话的任务连贯性和效率,MemGuide可以提升用户体验,并降低对话系统的运营成本。该研究对于构建更智能、更高效的对话系统具有重要的实际价值和未来影响。

📄 摘要(原文)

Modern task-oriented dialogue (TOD) systems increasingly rely on large language model (LLM) agents, leveraging Retrieval-Augmented Generation (RAG) and long-context capabilities for long-term memory utilization. However, these methods are primarily based on semantic similarity, overlooking task intent and reducing task coherence in multi-session dialogues. To address this challenge, we introduce MemGuide, a two-stage framework for intent-driven memory selection. (1) Intent-Aligned Retrieval matches the current dialogue context with stored intent descriptions in the memory bank, retrieving QA-formatted memory units that share the same goal. (2) Missing-Slot Guided Filtering employs a chain-of-thought slot reasoner to enumerate unfilled slots, then uses a fine-tuned LLaMA-8B filter to re-rank the retrieved units by marginal slot-completion gain. The resulting memory units inform a proactive strategy that minimizes conversational turns by directly addressing information gaps. Based on this framework, we introduce the MS-TOD, the first multi-session TOD benchmark comprising 132 diverse personas, 956 task goals, and annotated intent-aligned memory targets, supporting efficient multi-session task completion. Evaluations on MS-TOD show that MemGuide raises the task success rate by 11% (88% -> 99%) and reduces dialogue length by 2.84 turns in multi-session settings, while maintaining parity with single-session benchmarks.