Cartridges at Scale: Training Modular KV Caches over Large Document Collections
作者: Momchil Hardalov, Gonzalo Iglesias, Adrià de Gispert
分类: cs.CL, cs.IR, cs.LG
发布日期: 2026-06-03
备注: 21 pages, 5 figures, 17 tables
💡 一句话要点
提出CAS框架以解决大规模文档集合的KV缓存问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长上下文推理 键值缓存 动态混合 内存管理 文档蒸馏 多Cartridge学习 信息检索
📋 核心要点
- 现有的Cartridges方法在处理大规模文档集合时存在单一性和不可组合性,导致性能无法扩展。
- CAS框架通过动态干扰混合和内存管理,支持数百个文档Cartridge的高效训练与使用。
- 实验结果表明,CAS在百万标记的集合上相较于单一Cartridge提升了10-31个百分点,并且在与检索结合时表现优于传统RAG方法。
📝 摘要(中文)
大型语言模型能够处理长上下文,但在预填充数百万个标记时效率低下,因为许多内容在查询中保持静态。Cartridges通过将文档集合蒸馏为可重用的键值(KV)缓存来解决这一问题,消除预填充并保持准确性。然而,现有的Cartridges方法存在单一和不可组合的限制,无法扩展。本文提出了Cartridges at Scale (CAS)框架,支持可扩展的多Cartridge学习,结合动态干扰混合和内存高效的预算管理器,能够在GPU和持久存储之间轮换数百个文档Cartridge。该方法能够扩展到超过百万个标记的集合,相较于单一Cartridge在相似的标记预算下提升了10-31个百分点。
🔬 方法详解
问题定义:本文旨在解决现有Cartridges方法在处理大规模文档集合时的单一性和不可组合性问题,导致性能无法有效扩展。
核心思路:CAS框架通过引入动态干扰混合和内存高效的预算管理器,允许数百个文档Cartridge的训练与使用,从而提高了系统的可扩展性和效率。
技术框架:CAS的整体架构包括多个模块:首先是文档集合的蒸馏过程,将其转化为多个Cartridge;其次是动态干扰混合模块,负责在训练过程中混合不同Cartridge以提高泛化能力;最后是内存管理模块,负责在GPU和持久存储之间高效轮换Cartridge。
关键创新:CAS的主要创新在于其支持多Cartridge的训练与动态混合,克服了单一Cartridge的性能瓶颈,这一设计使得系统在处理大规模文档时能够保持高效和准确。
关键设计:在CAS中,采用了特定的参数设置和损失函数,以确保在高压缩情况下仍能保持与全上下文学习相近的准确性。此外,网络结构经过优化,以适应动态干扰混合的需求。
🖼️ 关键图片
📊 实验亮点
实验结果显示,CAS在处理超过百万标记的文档集合时,相较于单一Cartridge提升了10-31个百分点的准确性。此外,当与检索结合使用时,CAS的表现与传统RAG方法相当或更优,同时消耗的提示标记减少了3-4倍。
🎯 应用场景
该研究的潜在应用场景包括信息检索、智能问答系统和大规模文档处理等领域。通过提高KV缓存的效率,CAS框架能够显著降低计算资源的消耗,同时保持高准确性,具有广泛的实际价值和未来影响。
📄 摘要(原文)
Large Language Models can reason over long contexts, yet prefilling millions of tokens is wasteful as much of the content remains static across queries. Cartridges address this by distilling document collections into reusable key-value (KV) caches that eliminate prefilling while preserving accuracy. A critical limitation of this approach is that cartridges are monolithic and non-compositional: encoding an entire collection into a single KV block does not scale, and naively mixing cartridges trained in isolation collapses performance to near chance. We introduce Cartridges at Scale (CAS), a training framework for scalable multi-cartridge learning with dynamic distractor mixing and a memory-efficient budget manager that rotates hundreds of per-document cartridges between GPU and persistent storage. Our approach scales to collections exceeding a million tokens, improving over a monolithic cartridge by 10-31 points at comparable token budgets. Oracle cartridge accuracy falls within 2-6 points of full in-context learning even at high compression. When paired with retrieval for cartridge selection, CAS matches or exceeds conventional RAG accuracy while consuming 3-4x fewer prompt tokens.