Knowledge Capsules: Structured Nonparametric Memory Units for LLMs
作者: Bin Ju, Shenfeng Weng, Danying Zhou, Kunkai Su, Rongkai Xu
分类: cs.CL, cs.AI
发布日期: 2026-04-22
💡 一句话要点
提出知识胶囊,通过外部键值注入增强LLM在长文本和多跳推理中的知识利用。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 知识胶囊 检索增强生成 外部键值注入 长文本推理 多跳推理 非参数记忆 知识表示
📋 核心要点
- 现有LLM知识更新成本高,RAG方法依赖上下文扩展,在长文本和多跳推理中效果不稳定。
- 提出知识胶囊,将关系知识编码为非参数记忆单元,通过外部键值注入直接参与注意力计算。
- 实验表明,该方法在多个QA基准上优于RAG和GraphRAG,提升了长文本和多跳推理的稳定性和准确性。
📝 摘要(中文)
大型语言模型(LLM)将知识编码在参数权重中,这使得在不重新训练的情况下更新或扩展知识的成本很高。检索增强生成(RAG)通过将检索到的文本附加到输入来缓解此限制,但完全通过上下文扩展进行操作,其中外部知识作为token在注意力机制中竞争。因此,其影响是间接的且常常不稳定,尤其是在长上下文和多跳推理场景中。我们提出了知识胶囊,这是一种结构化的非参数记忆单元,它表示标准化的关系知识,并且可以使用冻结的基础模型直接从文档语料库构建。我们没有将知识作为文本注入,而是引入了一个外部键值注入(KVI)框架,该框架将胶囊编译成与注意力兼容的键值表示,从而使外部知识可以直接参与模型的注意力计算。通过将知识集成从上下文级别的增强转移到记忆级别的交互,所提出的框架在多个QA基准测试中始终优于RAG和GraphRAG,并在长上下文和多跳推理中提高了稳定性和准确性,而无需参数更新。
🔬 方法详解
问题定义:现有大型语言模型(LLM)的知识存储于参数权重中,更新或扩展知识需要重新训练,成本高昂。检索增强生成(RAG)虽然能通过检索外部知识来增强LLM,但其依赖于将检索到的文本添加到上下文,使得外部知识与原始输入在注意力机制中竞争,影响了知识利用的效率和稳定性,尤其是在长文本和多跳推理场景下,效果不佳。
核心思路:论文的核心思路是将外部知识表示为结构化的非参数记忆单元,称为“知识胶囊”。这些胶囊包含标准化的关系知识,并能直接参与到LLM的注意力计算中,从而避免了RAG方法中知识作为上下文token的竞争。通过这种方式,知识的集成从上下文层面转移到了记忆层面,提高了知识利用的效率和稳定性。
技术框架:该框架主要包含两个阶段:知识胶囊构建和外部键值注入(KVI)。首先,利用冻结的预训练语言模型从文档语料库中构建知识胶囊,每个胶囊代表一个关系知识单元。然后,通过KVI框架,将这些胶囊编译成与注意力机制兼容的键值表示。在推理阶段,这些键值表示被注入到LLM的注意力层中,使得模型可以直接利用外部知识进行推理。
关键创新:该论文最重要的创新点在于提出了“知识胶囊”的概念和“外部键值注入(KVI)”框架。与传统的RAG方法相比,该方法不是将知识作为文本添加到上下文中,而是将其转化为结构化的记忆单元,并直接注入到模型的注意力机制中。这种方法避免了知识在上下文中的竞争,提高了知识利用的效率和稳定性。
关键设计:知识胶囊的具体结构和构建方法是关键设计之一,论文中可能涉及如何从文档中提取关系知识,如何对知识进行标准化表示,以及如何将知识编码为键值对等细节。外部键值注入(KVI)框架的具体实现也是关键,可能涉及到如何将外部知识的键值对与模型自身的注意力机制相结合,以及如何控制外部知识的影响程度等。具体的参数设置、损失函数和网络结构等细节未知,需要查阅论文原文。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在多个QA基准测试中显著优于RAG和GraphRAG,尤其是在长上下文和多跳推理任务中。具体性能提升数据未知,但摘要中强调了稳定性和准确性的提高,表明该方法在复杂场景下具有更强的鲁棒性。
🎯 应用场景
该研究成果可应用于问答系统、知识图谱推理、智能客服等领域。通过知识胶囊,LLM可以更有效地利用外部知识,提高在复杂推理任务中的性能。该方法还有助于解决LLM知识更新困难的问题,使其能够快速适应新的知识领域。
📄 摘要(原文)
Large language models (LLMs) encode knowledge in parametric weights, making it costly to update or extend without retraining. Retrieval-augmented generation (RAG) mitigates this limitation by appending retrieved text to the input, but operates purely through context expansion, where external knowledge competes as tokens within the attention mechanism. As a result, its influence is indirect and often unstable, particularly in long context and multi hop reasoning scenarios. We propose Knowledge Capsules, structured nonparametric memory units that represent normalized relational knowledge and can be constructed directly from document corpora using a frozen base model. Instead of injecting knowledge as text, we introduce an External Key Value Injection (KVI) framework that compiles capsules into attention-compatible key value representations, enabling external knowledge to directly participate in the model's attention computation. By shifting knowledge integration from context-level augmentation to memory level interaction, the proposed framework consistently outperforms RAG and GraphRAG across multiple QA benchmarks, with improved stability and accuracy in long context and multi hop reasoning, while requiring no parameter updates.