Structured Distillation for Personalized Agent Memory: 11x Token Reduction with Retrieval Preservation

📄 arXiv: 2603.13017v1 📥 PDF

作者: Sydney Lewis

分类: cs.AI, cs.CL, cs.IR

发布日期: 2026-03-13

备注: 6 figures. Code: https://github.com/Process-Point-Technologies-Corporation/searchat


💡 一句话要点

提出结构化蒸馏方法,用于个性化Agent记忆压缩,实现11倍Token缩减并保留检索能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: Agent记忆 结构化蒸馏 信息检索 对话压缩 个性化Agent

📋 核心要点

  1. 现有Agent在处理与用户长期对话时,完整保存历史记录成本高昂,限制了其应用。
  2. 提出结构化蒸馏方法,将对话历史压缩为包含核心信息、上下文、主题和文件信息的紧凑检索层。
  3. 实验表明,该方法在实现11倍压缩的同时,检索性能接近甚至超过原始未压缩数据。

📝 摘要(中文)

本文研究个性化Agent记忆,旨在将用户与AI Agent的长期对话历史压缩成紧凑的检索层,以便后续搜索。每个交互被压缩成包含四个字段的复合对象:exchange_core(核心交流内容)、specific_context(特定上下文)、thematic_room_assignments(主题房间分配)和regex-extracted_files_touched(正则表达式提取的文件)。蒸馏后的可搜索文本平均每个交互38个token。应用于来自6个软件工程项目的4182个对话(14340个交互),该方法将平均交互长度从371个token减少到38个token,实现了11倍的压缩。通过201个面向召回的查询、107个配置(跨越5种纯搜索模式和5种跨层搜索模式)以及5个LLM评分器(214519个共识评分的查询-结果对)评估了个性化召回是否在压缩后仍然有效。最佳纯蒸馏配置达到最佳原始MRR的96%(0.717 vs 0.745)。结果依赖于机制。所有20个向量搜索配置在Bonferroni校正后仍然不显着,而所有20个BM25配置显着降低。最佳跨层设置略微超过最佳纯原始基线(MRR 0.759)。结构化蒸馏压缩单用户Agent记忆,而不会统一牺牲检索质量。在1/11的上下文成本下,数千个交互可以放入单个提示中,而原始来源仍然可用于向下钻取。我们将实现和分析管道作为开源软件发布。

🔬 方法详解

问题定义:论文旨在解决AI Agent与用户长期对话中,完整保存对话历史带来的高昂计算成本问题。现有方法直接存储所有对话内容,导致上下文长度过长,影响推理效率和资源消耗。

核心思路:论文的核心思路是通过结构化蒸馏,将每个对话交互压缩成一个包含关键信息的复合对象,从而在大幅减少存储空间的同时,保留检索所需的核心信息。这种方法旨在平衡压缩率和信息保留,确保Agent能够有效地回忆和利用历史对话。

技术框架:该方法包含以下几个主要步骤:1) 对每个对话交互进行结构化分析,提取四个关键字段:核心交流内容(exchange_core)、特定上下文(specific_context)、主题房间分配(thematic_room_assignments)和正则表达式提取的文件(regex-extracted_files_touched)。2) 将提取的字段组合成一个复合对象,作为压缩后的对话表示。3) 使用压缩后的表示构建检索层,用于后续的查询和召回。4) 通过实验评估压缩后的检索性能,并与原始未压缩数据的检索性能进行比较。

关键创新:该方法的关键创新在于其结构化的蒸馏过程,它不仅仅是简单地进行文本压缩,而是通过语义分析和信息提取,将对话交互分解成具有明确含义的结构化组件。这种结构化的表示方式使得压缩后的数据仍然能够有效地支持检索,并且可以根据不同的应用场景进行定制和优化。

关键设计:论文中关键的设计包括:1) 四个关键字段的选择,这些字段被认为能够捕捉对话交互的核心信息。2) 使用正则表达式提取文件信息,这对于软件工程领域的应用尤为重要。3) 实验中使用了多种检索方法(包括向量搜索和BM25)和LLM评分器,以全面评估压缩后的检索性能。4) 采用了Bonferroni校正来控制多重比较带来的误差。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,结构化蒸馏方法能够将平均交互长度从371个token减少到38个token,实现11倍的压缩。最佳纯蒸馏配置的MRR达到最佳原始MRR的96%(0.717 vs 0.745)。最佳跨层设置略微超过最佳纯原始基线(MRR 0.759)。这些结果表明,该方法能够在大幅压缩对话历史的同时,保持甚至提升检索性能。

🎯 应用场景

该研究成果可广泛应用于各种需要长期对话记忆的AI Agent,例如智能客服、虚拟助手、教育机器人等。通过降低Agent的记忆成本,可以支持更长的对话历史和更复杂的交互场景,提升用户体验。此外,该方法还可以应用于知识库构建、信息检索等领域。

📄 摘要(原文)

Long conversations with an AI agent create a simple problem for one user: the history is useful, but carrying it verbatim is expensive. We study personalized agent memory: one user's conversation history with an agent, distilled into a compact retrieval layer for later search. Each exchange is compressed into a compound object with four fields (exchange_core, specific_context, thematic room_assignments, and regex-extracted files_touched). The searchable distilled text averages 38 tokens per exchange. Applied to 4,182 conversations (14,340 exchanges) from 6 software engineering projects, the method reduces average exchange length from 371 to 38 tokens, yielding 11x compression. We evaluate whether personalized recall survives that compression using 201 recall-oriented queries, 107 configurations spanning 5 pure and 5 cross-layer search modes, and 5 LLM graders (214,519 consensus-graded query-result pairs). The best pure distilled configuration reaches 96% of the best verbatim MRR (0.717 vs 0.745). Results are mechanism-dependent. All 20 vector search configurations remain non-significant after Bonferroni correction, while all 20 BM25 configurations degrade significantly (effect sizes |d|=0.031-0.756). The best cross-layer setup slightly exceeds the best pure verbatim baseline (MRR 0.759). Structured distillation compresses single-user agent memory without uniformly sacrificing retrieval quality. At 1/11 the context cost, thousands of exchanges fit within a single prompt while the verbatim source remains available for drill-down. We release the implementation and analysis pipeline as open-source software.