Structured Distillation for Personalized Agent Memory: 11x Token Reduction with Retrieval Preservation

作者: Sydney Lewis

分类: cs.AI, cs.CL, cs.IR

发布日期: 2026-03-13

备注: 6 figures. Code: https://github.com/Process-Point-Technologies-Corporation/searchat

💡 一句话要点

提出结构化蒸馏方法，用于个性化Agent记忆压缩，实现11倍Token缩减并保留检索能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: Agent记忆 结构化蒸馏 信息检索 对话压缩 个性化Agent

📋 核心要点

现有Agent在处理与用户长期对话时，完整保存历史记录成本高昂，限制了其应用。
提出结构化蒸馏方法，将对话历史压缩为包含核心信息、上下文、主题和文件信息的紧凑检索层。
实验表明，该方法在实现11倍压缩的同时，检索性能接近甚至超过原始未压缩数据。

📝 摘要（中文）

本文研究个性化Agent记忆，旨在将用户与AI Agent的长期对话历史压缩成紧凑的检索层，以便后续搜索。每个交互被压缩成包含四个字段的复合对象：exchange_core（核心交流内容）、specific_context（特定上下文）、thematic_room_assignments（主题房间分配）和regex-extracted_files_touched（正则表达式提取的文件）。蒸馏后的可搜索文本平均每个交互38个token。应用于来自6个软件工程项目的4182个对话（14340个交互），该方法将平均交互长度从371个token减少到38个token，实现了11倍的压缩。通过201个面向召回的查询、107个配置（跨越5种纯搜索模式和5种跨层搜索模式）以及5个LLM评分器（214519个共识评分的查询-结果对）评估了个性化召回是否在压缩后仍然有效。最佳纯蒸馏配置达到最佳原始MRR的96%（0.717 vs 0.745）。结果依赖于机制。所有20个向量搜索配置在Bonferroni校正后仍然不显着，而所有20个BM25配置显着降低。最佳跨层设置略微超过最佳纯原始基线（MRR 0.759）。结构化蒸馏压缩单用户Agent记忆，而不会统一牺牲检索质量。在1/11的上下文成本下，数千个交互可以放入单个提示中，而原始来源仍然可用于向下钻取。我们将实现和分析管道作为开源软件发布。

🔬 方法详解

问题定义：论文旨在解决AI Agent与用户长期对话中，完整保存对话历史带来的高昂计算成本问题。现有方法直接存储所有对话内容，导致上下文长度过长，影响推理效率和资源消耗。

核心思路：论文的核心思路是通过结构化蒸馏，将每个对话交互压缩成一个包含关键信息的复合对象，从而在大幅减少存储空间的同时，保留检索所需的核心信息。这种方法旨在平衡压缩率和信息保留，确保Agent能够有效地回忆和利用历史对话。

技术框架：该方法包含以下几个主要步骤：1) 对每个对话交互进行结构化分析，提取四个关键字段：核心交流内容（exchange_core）、特定上下文（specific_context）、主题房间分配（thematic_room_assignments）和正则表达式提取的文件（regex-extracted_files_touched）。2) 将提取的字段组合成一个复合对象，作为压缩后的对话表示。3) 使用压缩后的表示构建检索层，用于后续的查询和召回。4) 通过实验评估压缩后的检索性能，并与原始未压缩数据的检索性能进行比较。

关键创新：该方法的关键创新在于其结构化的蒸馏过程，它不仅仅是简单地进行文本压缩，而是通过语义分析和信息提取，将对话交互分解成具有明确含义的结构化组件。这种结构化的表示方式使得压缩后的数据仍然能够有效地支持检索，并且可以根据不同的应用场景进行定制和优化。

关键设计：论文中关键的设计包括：1) 四个关键字段的选择，这些字段被认为能够捕捉对话交互的核心信息。2) 使用正则表达式提取文件信息，这对于软件工程领域的应用尤为重要。3) 实验中使用了多种检索方法（包括向量搜索和BM25）和LLM评分器，以全面评估压缩后的检索性能。4) 采用了Bonferroni校正来控制多重比较带来的误差。

🖼️ 关键图片

📊 实验亮点

实验结果表明，结构化蒸馏方法能够将平均交互长度从371个token减少到38个token，实现11倍的压缩。最佳纯蒸馏配置的MRR达到最佳原始MRR的96%（0.717 vs 0.745）。最佳跨层设置略微超过最佳纯原始基线（MRR 0.759）。这些结果表明，该方法能够在大幅压缩对话历史的同时，保持甚至提升检索性能。

🎯 应用场景

该研究成果可广泛应用于各种需要长期对话记忆的AI Agent，例如智能客服、虚拟助手、教育机器人等。通过降低Agent的记忆成本，可以支持更长的对话历史和更复杂的交互场景，提升用户体验。此外，该方法还可以应用于知识库构建、信息检索等领域。

📄 摘要（原文）

Long conversations with an AI agent create a simple problem for one user: the history is useful, but carrying it verbatim is expensive. We study personalized agent memory: one user's conversation history with an agent, distilled into a compact retrieval layer for later search. Each exchange is compressed into a compound object with four fields (exchange_core, specific_context, thematic room_assignments, and regex-extracted files_touched). The searchable distilled text averages 38 tokens per exchange. Applied to 4,182 conversations (14,340 exchanges) from 6 software engineering projects, the method reduces average exchange length from 371 to 38 tokens, yielding 11x compression. We evaluate whether personalized recall survives that compression using 201 recall-oriented queries, 107 configurations spanning 5 pure and 5 cross-layer search modes, and 5 LLM graders (214,519 consensus-graded query-result pairs). The best pure distilled configuration reaches 96% of the best verbatim MRR (0.717 vs 0.745). Results are mechanism-dependent. All 20 vector search configurations remain non-significant after Bonferroni correction, while all 20 BM25 configurations degrade significantly (effect sizes |d|=0.031-0.756). The best cross-layer setup slightly exceeds the best pure verbatim baseline (MRR 0.759). Structured distillation compresses single-user agent memory without uniformly sacrificing retrieval quality. At 1/11 the context cost, thousands of exchanges fit within a single prompt while the verbatim source remains available for drill-down. We release the implementation and analysis pipeline as open-source software.

Structured Distillation for Personalized Agent Memory: 11x Token Reduction with Retrieval Preservation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理