Facts as First Class Objects: Knowledge Objects for Persistent LLM Memory
作者: Oliver Zahn, Simran Chana
分类: cs.AI
发布日期: 2026-03-18
备注: 26 pages, 7 figures
💡 一句话要点
提出知识对象(KOs)作为LLM持久记忆,解决上下文记忆的容量、压缩和目标漂移问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 知识对象 持久记忆 上下文学习 多跳推理
📋 核心要点
- 大型语言模型依赖上下文记忆,但存在容量限制、压缩损失和目标漂移等问题。
- 论文提出知识对象(KOs),一种离散哈希寻址元组,实现高效的事实存储和检索。
- 实验表明,KOs在准确率、成本和多跳推理方面优于上下文记忆,并解决了现有问题。
📝 摘要(中文)
大型语言模型越来越多地作为持久的知识工作者,其中上下文记忆(存储在提示中的事实)是默认策略。本文将上下文记忆与知识对象(KOs)进行基准测试,KOs是具有O(1)检索的离散哈希寻址元组。在上下文窗口中,Claude Sonnet 4.5从10到7,000个事实实现了100%的精确匹配准确率(占其200K窗口的97.5%)。然而,生产部署揭示了三种失效模式:容量限制(提示在8,000个事实时溢出)、压缩损失(摘要破坏了60%的事实)和目标漂移(级联压缩侵蚀了54%的项目约束,而模型仍然充满信心)。KOs在所有条件下都实现了100%的准确率,成本降低了252倍。在多跳推理方面,KOs达到78.9%,而上下文记忆为31.6%。跨四个前沿模型的交叉模型复制证实了压缩损失是架构性的,而不是模型特定的。此外,本文还表明,嵌入检索在对抗性事实上失败(在1时精度为20%),并且神经记忆(Titans)存储事实但无法按需检索它们。本文引入了密度自适应检索作为切换机制,并发布了基准测试套件。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)依赖于上下文记忆来存储和检索知识,但这种方法存在三个主要痛点:一是容量限制,即上下文窗口大小的限制导致无法存储大量事实;二是压缩损失,即通过摘要等方式压缩上下文会导致信息丢失;三是目标漂移,即在多次压缩后,模型可能会偏离原始目标。这些问题限制了LLM在需要持久记忆和复杂推理任务中的应用。
核心思路:论文的核心思路是将知识表示为独立的、可寻址的“知识对象”(Knowledge Objects,KOs)。每个KO包含一个事实,并使用哈希函数进行寻址,从而实现O(1)的检索复杂度。这种设计避免了上下文窗口的限制,减少了压缩损失,并有助于保持目标一致性。
技术框架:该方法的核心是构建一个知识库,其中每个事实都表示为一个KO。当需要检索知识时,系统使用查询来查找相关的KO。论文还提出了密度自适应检索机制,用于在KO检索和嵌入检索之间进行切换,以应对不同的场景。整体流程包括:1) 将事实存储为KO;2) 使用哈希函数对KO进行寻址;3) 使用查询检索相关的KO;4) 使用密度自适应检索机制优化检索效果。
关键创新:最重要的技术创新点是知识对象(KOs)的概念,它将知识表示为独立的、可寻址的单元,从而克服了上下文记忆的局限性。与现有方法的本质区别在于,KOs不依赖于上下文窗口,而是通过哈希寻址实现高效的知识检索。此外,密度自适应检索机制也是一个创新点,它能够根据查询的特点选择合适的检索方法。
关键设计:论文中关键的设计包括:1) 哈希函数的选择,需要保证KO的唯一性和检索效率;2) 密度自适应检索机制的阈值设置,需要根据实际情况进行调整,以平衡KO检索和嵌入检索的性能;3) KO的存储和管理方式,需要考虑存储效率和检索速度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,KOs在准确率、成本和多跳推理方面均优于上下文记忆。KOs在所有条件下都实现了100%的准确率,成本降低了252倍。在多跳推理方面,KOs达到78.9%,而上下文记忆为31.6%。此外,实验还验证了压缩损失是架构性的,而不是模型特定的,并表明嵌入检索在对抗性事实上表现不佳。
🎯 应用场景
该研究成果可应用于需要持久记忆和复杂推理的各种场景,例如智能助手、知识图谱问答、自动化报告生成等。通过使用知识对象,LLM可以更有效地存储和检索知识,从而提高其在这些应用中的性能和可靠性。未来,该技术有望推动LLM在更多领域的应用。
📄 摘要(原文)
Large language models increasingly serve as persistent knowledge workers, with in-context memory - facts stored in the prompt - as the default strategy. We benchmark in-context memory against Knowledge Objects (KOs), discrete hash-addressed tuples with O(1) retrieval. Within the context window, Claude Sonnet 4.5 achieves 100% exact-match accuracy from 10 to 7,000 facts (97.5% of its 200K window). However, production deployment reveals three failure modes: capacity limits (prompts overflow at 8,000 facts), compaction loss (summarization destroys 60% of facts), and goal drift (cascading compaction erodes 54% of project constraints while the model continues with full confidence). KOs achieve 100% accuracy across all conditions at 252x lower cost. On multi-hop reasoning, KOs reach 78.9% versus 31.6% for in-context. Cross-model replication across four frontier models confirms compaction loss is architectural, not model-specific. We additionally show that embedding retrieval fails on adversarial facts (20% precision at 1) and that neural memory (Titans) stores facts but fails to retrieve them on demand. We introduce density-adaptive retrieval as a switching mechanism and release the benchmark suite.