QCFuse: Query-Aware Cache Fusion via Compressed View for Efficient RAG Serving
作者: Jianxin Yan, Wangze Ni, Zhenxin Li, Jiabao Jin, Zhitao Shen, Haoyang Li, Jia Zhu, Peng Cheng, Xuemin Lin, Lei Chen, Kui Ren
分类: cs.AI, cs.DB
发布日期: 2026-06-04
💡 一句话要点
提出QCFuse以解决RAG缓存融合效率问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 检索增强生成 缓存融合 查询选择器 大型语言模型 效率提升 块锚查询 关键层分析
📋 核心要点
- 现有RAG缓存融合方法在质量与效率之间存在权衡,快速的查询无关选择器可能遗漏相关证据。
- QCFuse通过块锚查询探测和关键层分析,优化了查询感知选择器的设计,提升了重计算效率。
- 在六个数据集上,QCFuse实现了与完整预填充相同的质量,并在速度上平均提升1.7倍,表现优异。
📝 摘要(中文)
检索增强生成(RAG)通过外部证据提升大型语言模型(LLM)的回答质量,但处理检索到的上下文使得预填充阶段成为主要的服务成本。RAG缓存融合通过重用预计算的键值(KV)缓存来降低这一成本,但现有选择器在质量与效率之间存在困境。本文提出QCFuse,一种压缩视图的查询感知选择器,利用块锚查询探测和关键层分析来高效识别重计算的令牌。实验表明,QCFuse在六个数据集上实现了与完整预填充相同的质量,同时在速度上平均提升1.7倍。
🔬 方法详解
问题定义:本文旨在解决RAG缓存融合中的效率问题,现有方法在查询选择时面临质量与效率的权衡,导致服务成本高昂。
核心思路:QCFuse通过压缩视图的查询感知选择器,利用块锚查询探测来优化用户查询状态,并通过关键层分析识别重计算令牌,从而避免全层检查带来的延迟。
技术框架:QCFuse的整体架构包括查询探测模块和重计算模块。查询探测模块负责根据用户查询状态生成块锚,而重计算模块则根据关键层分析决定哪些令牌需要重计算。
关键创新:QCFuse的主要创新在于其压缩视图的设计,使得选择器在不需要全层可见性的情况下,依然能够高效地进行重计算,显著提升了缓存融合的效率。
关键设计:在设计中,QCFuse采用了块锚查询探测和关键层分析的组合,确保了在保持高质量的同时,减少了重计算的时间开销。
🖼️ 关键图片
📊 实验亮点
QCFuse在六个数据集上的实验结果显示,其在保持与完整预填充相同的质量的同时,平均预填充时间提升了1.7倍,相较于最强基线ProphetKV也实现了1.5倍的速度提升,展现了显著的性能优势。
🎯 应用场景
QCFuse的研究成果在大型语言模型的应用中具有广泛的潜在价值,尤其是在需要快速响应的实时系统中,如智能客服、在线教育和信息检索等领域。通过提升RAG的效率,能够显著改善用户体验和系统性能。
📄 摘要(原文)
Retrieval-augmented generation (RAG) improves large language model (LLM) answer quality by grounding generation in external evidence, but processing retrieved contexts makes the prefill stage a dominant serving cost. RAG cache fusion reduces this cost by reusing precomputed key-value (KV) caches for retrieved chunks and selectively recomputing tokens under the current prompt. Existing selectors, however, face a dilemma between quality and efficiency: fast query-agnostic or final-layer query-to-context selectors can miss request-relevant evidence, whereas full-view query-aware selectors require broad context and layer visibility before recomputation and therefore stall the layer-wise cache-fusion pipeline. We present QCFuse, a compressed-view query-aware selector for RAG cache fusion. QCFuse uses chunk-anchor query probing to condition user-query states on compact per-chunk anchors and critical-layer profiling to identify recomputation tokens without all-layer inspection. We implement QCFuse in SGLang and evaluate it on four open-weight LLMs across six datasets. QCFuse reaches full-prefill-level quality. At matched quality, QCFuse achieves an average prefill-time speedup of 1.7x over full prefill and 1.5x over ProphetKV, the strongest quality-preserving baseline.