Contextual Memory Virtualisation: DAG-Based State Management and Structurally Lossless Trimming for LLM Agents

作者: Cosmo Santoni

分类: cs.SE, cs.AI, cs.HC, cs.OS

发布日期: 2026-02-28

💡 一句话要点

提出上下文记忆虚拟化CMV，用于LLM Agent中基于DAG的状态管理和结构无损精简。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 上下文记忆 虚拟化 LLM Agent 有向无环图 状态管理

📋 核心要点

现有LLM Agent在长程推理中会因上下文窗口限制而丢失重要状态信息，导致性能下降。
CMV将LLM理解视为版本控制的状态，利用DAG进行会话历史管理，支持上下文重用和并行会话。
提出的三遍结构无损修剪算法，在保留关键信息的同时，有效减少token数量，提升经济效益。

📝 摘要（中文）

大型语言模型在执行扩展推理任务时，会在上下文窗口中积累大量状态，包括架构映射、权衡决策和代码库约定。当会话达到上下文限制并进行有损压缩时，这些理解会丢失。我们提出了上下文记忆虚拟化（CMV），该系统将积累的LLM理解视为版本控制的状态。借鉴操作系统虚拟内存，CMV将会话历史建模为有向无环图（DAG），并具有正式定义的快照、分支和修剪原语，从而支持跨独立并行会话的上下文重用。我们引入了一种三遍结构无损修剪算法，该算法逐字保留每个用户消息和助手响应，同时通过去除原始工具输出、base64图像和元数据等机械冗余，平均减少20%的token数量，对于具有显著开销的会话，最多可减少86%。一项针对76个真实编码会话的单用户案例研究表明，在提示缓存下，修剪在经济上仍然可行，在混合工具使用会话中增益最强，平均减少39%，并在10轮内达到盈亏平衡。参考实现可在提供的URL中找到。

🔬 方法详解

问题定义：论文旨在解决LLM Agent在长程推理过程中，由于上下文窗口限制导致的状态信息丢失问题。现有方法通常采用有损压缩或截断，不可避免地会丢失重要的上下文信息，影响LLM的推理能力和连贯性。此外，重复计算和冗余信息也增加了计算成本。

核心思路：论文的核心思路是将LLM的上下文理解视为一种版本控制的状态，并借鉴操作系统中的虚拟内存管理机制。通过将对话历史建模为有向无环图（DAG），实现对上下文的快照、分支和修剪，从而支持上下文的重用和并行会话。这种方法旨在保留关键信息，同时减少token数量，提高效率。

技术框架：CMV系统的整体架构包括以下几个主要模块：1) DAG构建模块：负责将对话历史构建成DAG，每个节点代表一个状态快照。2) 快照、分支和修剪模块：提供对DAG进行快照、创建分支和修剪操作的原语，用于管理上下文状态。3) 上下文检索模块：根据当前任务的需求，从DAG中检索相关的上下文信息。4) 三遍结构无损修剪算法：用于去除冗余信息，减少token数量。

关键创新：论文最重要的技术创新点在于提出了上下文记忆虚拟化（CMV）的概念，并将操作系统中的虚拟内存管理机制应用于LLM Agent的上下文管理。此外，提出的三遍结构无损修剪算法能够在保留关键信息的同时，有效减少token数量，这与传统的有损压缩方法有本质区别。

关键设计：三遍结构无损修剪算法的关键设计包括：第一遍，去除原始工具输出、base64图像和元数据等机械冗余；第二遍，识别并去除重复或不相关的上下文信息；第三遍，对剩余的上下文信息进行优化，例如合并相似的句子或段落。算法的目标是最大限度地减少token数量，同时保证上下文信息的完整性和连贯性。具体参数设置和阈值选择需要根据实际应用场景进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CMV提出的三遍结构无损修剪算法能够平均减少20%的token数量，对于具有显著开销的会话，最多可减少86%。在单用户案例研究中，CMV在提示缓存下仍然具有经济可行性，尤其是在混合工具使用会话中，平均减少39%的token数量，并在10轮内达到盈亏平衡。这些结果表明CMV在实际应用中具有显著的性能优势。

🎯 应用场景

CMV可应用于需要长程推理和复杂交互的LLM Agent，例如智能客服、代码助手、科研助手等。通过有效管理和重用上下文信息，CMV可以提高Agent的推理能力、降低计算成本，并支持更复杂的任务。未来，CMV可以扩展到多Agent协作场景，实现更高效的知识共享和协同工作。

📄 摘要（原文）

As large language models engage in extended reasoning tasks, they accumulate significant state -- architectural mappings, trade-off decisions, codebase conventions -- within the context window. This understanding is lost when sessions reach context limits and undergo lossy compaction. We propose Contextual Memory Virtualisation (CMV), a system that treats accumulated LLM understanding as version-controlled state. Borrowing from operating system virtual memory, CMV models session history as a Directed Acyclic Graph (DAG) with formally defined snapshot, branch, and trim primitives that enable context reuse across independent parallel sessions. We introduce a three-pass structurally lossless trimming algorithm that preserves every user message and assistant response verbatim while reducing token counts by a mean of 20% and up to 86% for sessions with significant overhead by stripping mechanical bloat such as raw tool outputs, base64 images, and metadata. A single-user case-study evaluation across 76 real-world coding sessions demonstrates that trimming remains economically viable under prompt caching, with the strongest gains in mixed tool-use sessions, which average 39% reduction and reach break-even within 10 turns. A reference implementation is available atthis https URL.

Contextual Memory Virtualisation: DAG-Based State Management and Structurally Lossless Trimming for LLM Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理