Grounding Agent Memory in Contextual Intent

📄 arXiv: 2601.10702v1 📥 PDF

作者: Ruozhen Yang, Yucheng Jiang, Yueqi Jiang, Priyanka Kargupta, Yunyi Zhang, Jiawei Han

分类: cs.CL, cs.AI, cs.IR

发布日期: 2026-01-15


💡 一句话要点

提出STITCH,通过上下文意图索引记忆,解决长时交互中记忆检索的歧义性问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长时记忆 上下文推理 意图识别 记忆检索 智能体 语言模型 知识图谱

📋 核心要点

  1. 现有大型语言模型在长时交互中面临挑战,易受上下文干扰,导致检索错误记忆。
  2. STITCH通过上下文意图索引记忆,利用目标、动作和实体类型来区分不同语境下的信息。
  3. 实验表明,STITCH在CAME-Bench和LongMemEval上显著优于现有方法,提升高达35.6%。

📝 摘要(中文)

在长时程、目标导向的交互中部署大型语言模型仍然具有挑战性,因为相似的实体和事实会在不同的潜在目标和约束下重复出现,导致记忆系统检索到上下文不匹配的证据。我们提出了STITCH(上下文历史中的结构化意图跟踪),这是一种代理记忆系统,它使用结构化的检索线索(上下文意图)索引每个轨迹步骤,并通过匹配当前步骤的意图来检索历史。上下文意图提供了紧凑的信号,可以消除重复提及的歧义并减少干扰:(1)定义主题段的当前潜在目标,(2)动作类型,以及(3)锚定哪些属性重要的显著实体类型。在推理过程中,STITCH通过意图兼容性过滤和优先排序记忆片段,抑制语义相似但上下文不兼容的历史。为了评估,我们引入了CAME-Bench,这是一个用于在现实、动态、目标导向的轨迹中进行上下文感知检索的基准。在CAME-Bench和LongMemEval上,STITCH实现了最先进的性能,优于最强的基线35.6%,并且随着轨迹长度的增加,增益最大。我们的分析表明,意图索引大大降低了检索噪声,支持用于鲁棒长时推理的意图感知记忆。

🔬 方法详解

问题定义:现有方法在长时程、目标导向的交互环境中,难以区分相似但上下文不同的信息。例如,在不同的任务目标下,相同的实体可能具有不同的重要属性,导致记忆系统检索到错误的或不相关的历史信息。这种上下文不敏感性严重影响了智能体进行长期推理和决策的能力。

核心思路:STITCH的核心思路是利用“上下文意图”作为记忆索引的关键。上下文意图包含了当前潜在目标、动作类型和显著实体类型,这些信息能够有效地描述当前步骤的语境。通过将记忆片段与对应的上下文意图关联起来,并在检索时匹配当前步骤的意图,STITCH能够过滤掉语义相似但上下文不兼容的历史信息,从而提高检索的准确性和效率。

技术框架:STITCH的整体框架包含以下几个主要模块:1) 意图编码器:负责将当前步骤的目标、动作和实体类型编码为上下文意图向量。2) 记忆索引模块:使用上下文意图向量作为索引,将历史轨迹步骤存储在记忆库中。3) 记忆检索模块:根据当前步骤的上下文意图,从记忆库中检索相关的历史片段。该模块通过计算当前意图与记忆库中意图的相似度,选择最匹配的片段。4) 信息融合模块:将检索到的历史片段与当前步骤的信息进行融合,用于后续的推理和决策。

关键创新:STITCH的关键创新在于引入了“上下文意图”这一概念,并将其应用于记忆索引和检索。与传统的基于语义相似度的检索方法相比,STITCH能够更好地捕捉上下文信息,从而提高检索的准确性和鲁棒性。此外,STITCH的结构化意图表示方法也更加紧凑和高效,能够减少记忆存储和检索的开销。

关键设计:意图编码器可以使用预训练的语言模型(如BERT)进行微调,以获得更好的意图表示能力。相似度计算可以使用余弦相似度或点积等方法。在CAME-Bench实验中,作者使用了特定的实体类型集合,并设计了相应的目标和动作空间。具体的损失函数和网络结构细节在论文中可能没有详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

STITCH在CAME-Bench和LongMemEval两个基准测试中均取得了显著的性能提升。在CAME-Bench上,STITCH优于最强的基线方法35.6%,尤其是在长轨迹场景下,优势更加明显。实验结果表明,STITCH的意图索引方法能够有效地降低检索噪声,提高记忆检索的准确性,从而支持更鲁棒的长时推理。

🎯 应用场景

STITCH适用于需要长期记忆和上下文推理的智能体应用,例如对话系统、游戏AI、机器人导航和任务规划等。通过提高记忆检索的准确性和效率,STITCH可以帮助智能体更好地理解用户意图、完成复杂任务,并与环境进行更自然的交互。该研究对于提升智能体的长期推理能力和鲁棒性具有重要意义。

📄 摘要(原文)

Deploying large language models in long-horizon, goal-oriented interactions remains challenging because similar entities and facts recur under different latent goals and constraints, causing memory systems to retrieve context-mismatched evidence. We propose STITCH (Structured Intent Tracking in Contextual History), an agentic memory system that indexes each trajectory step with a structured retrieval cue, contextual intent, and retrieves history by matching the current step's intent. Contextual intent provides compact signals that disambiguate repeated mentions and reduce interference: (1) the current latent goal defining a thematic segment, (2) the action type, and (3) the salient entity types anchoring which attributes matter. During inference, STITCH filters and prioritizes memory snippets by intent compatibility, suppressing semantically similar but context-incompatible history. For evaluation, we introduce CAME-Bench, a benchmark for context-aware retrieval in realistic, dynamic, goal-oriented trajectories. Across CAME-Bench and LongMemEval, STITCH achieves state-of-the-art performance, outperforming the strongest baseline by 35.6%, with the largest gains as trajectory length increases. Our analysis shows that intent indexing substantially reduces retrieval noise, supporting intent-aware memory for robust long-horizon reasoning.