Contextual Memory Virtualisation: DAG-Based State Management and Structurally Lossless Trimming for LLM Agents
作者: Cosmo Santoni
分类: cs.SE, cs.AI, cs.HC, cs.OS
发布日期: 2026-02-28
💡 一句话要点
提出上下文记忆虚拟化CMV,用于LLM Agent中基于DAG的状态管理和结构无损精简。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 上下文记忆 虚拟化 LLM Agent 有向无环图 状态管理
📋 核心要点
- 现有LLM Agent在长程推理中会因上下文窗口限制而丢失重要状态信息,导致性能下降。
- CMV将LLM理解视为版本控制的状态,利用DAG进行会话历史管理,支持上下文重用和并行会话。
- 提出的三遍结构无损修剪算法,在保留关键信息的同时,有效减少token数量,提升经济效益。
📝 摘要(中文)
大型语言模型在执行扩展推理任务时,会在上下文窗口中积累大量状态,包括架构映射、权衡决策和代码库约定。当会话达到上下文限制并进行有损压缩时,这些理解会丢失。我们提出了上下文记忆虚拟化(CMV),该系统将积累的LLM理解视为版本控制的状态。借鉴操作系统虚拟内存,CMV将会话历史建模为有向无环图(DAG),并具有正式定义的快照、分支和修剪原语,从而支持跨独立并行会话的上下文重用。我们引入了一种三遍结构无损修剪算法,该算法逐字保留每个用户消息和助手响应,同时通过去除原始工具输出、base64图像和元数据等机械冗余,平均减少20%的token数量,对于具有显著开销的会话,最多可减少86%。一项针对76个真实编码会话的单用户案例研究表明,在提示缓存下,修剪在经济上仍然可行,在混合工具使用会话中增益最强,平均减少39%,并在10轮内达到盈亏平衡。参考实现可在提供的URL中找到。
🔬 方法详解
问题定义:论文旨在解决LLM Agent在长程推理过程中,由于上下文窗口限制导致的状态信息丢失问题。现有方法通常采用有损压缩或截断,不可避免地会丢失重要的上下文信息,影响LLM的推理能力和连贯性。此外,重复计算和冗余信息也增加了计算成本。
核心思路:论文的核心思路是将LLM的上下文理解视为一种版本控制的状态,并借鉴操作系统中的虚拟内存管理机制。通过将对话历史建模为有向无环图(DAG),实现对上下文的快照、分支和修剪,从而支持上下文的重用和并行会话。这种方法旨在保留关键信息,同时减少token数量,提高效率。
技术框架:CMV系统的整体架构包括以下几个主要模块:1) DAG构建模块:负责将对话历史构建成DAG,每个节点代表一个状态快照。2) 快照、分支和修剪模块:提供对DAG进行快照、创建分支和修剪操作的原语,用于管理上下文状态。3) 上下文检索模块:根据当前任务的需求,从DAG中检索相关的上下文信息。4) 三遍结构无损修剪算法:用于去除冗余信息,减少token数量。
关键创新:论文最重要的技术创新点在于提出了上下文记忆虚拟化(CMV)的概念,并将操作系统中的虚拟内存管理机制应用于LLM Agent的上下文管理。此外,提出的三遍结构无损修剪算法能够在保留关键信息的同时,有效减少token数量,这与传统的有损压缩方法有本质区别。
关键设计:三遍结构无损修剪算法的关键设计包括:第一遍,去除原始工具输出、base64图像和元数据等机械冗余;第二遍,识别并去除重复或不相关的上下文信息;第三遍,对剩余的上下文信息进行优化,例如合并相似的句子或段落。算法的目标是最大限度地减少token数量,同时保证上下文信息的完整性和连贯性。具体参数设置和阈值选择需要根据实际应用场景进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CMV提出的三遍结构无损修剪算法能够平均减少20%的token数量,对于具有显著开销的会话,最多可减少86%。在单用户案例研究中,CMV在提示缓存下仍然具有经济可行性,尤其是在混合工具使用会话中,平均减少39%的token数量,并在10轮内达到盈亏平衡。这些结果表明CMV在实际应用中具有显著的性能优势。
🎯 应用场景
CMV可应用于需要长程推理和复杂交互的LLM Agent,例如智能客服、代码助手、科研助手等。通过有效管理和重用上下文信息,CMV可以提高Agent的推理能力、降低计算成本,并支持更复杂的任务。未来,CMV可以扩展到多Agent协作场景,实现更高效的知识共享和协同工作。
📄 摘要(原文)
As large language models engage in extended reasoning tasks, they accumulate significant state -- architectural mappings, trade-off decisions, codebase conventions -- within the context window. This understanding is lost when sessions reach context limits and undergo lossy compaction. We propose Contextual Memory Virtualisation (CMV), a system that treats accumulated LLM understanding as version-controlled state. Borrowing from operating system virtual memory, CMV models session history as a Directed Acyclic Graph (DAG) with formally defined snapshot, branch, and trim primitives that enable context reuse across independent parallel sessions. We introduce a three-pass structurally lossless trimming algorithm that preserves every user message and assistant response verbatim while reducing token counts by a mean of 20% and up to 86% for sessions with significant overhead by stripping mechanical bloat such as raw tool outputs, base64 images, and metadata. A single-user case-study evaluation across 76 real-world coding sessions demonstrates that trimming remains economically viable under prompt caching, with the strongest gains in mixed tool-use sessions, which average 39% reduction and reach break-even within 10 turns. A reference implementation is available atthis https URL.