QCFuse: Query-Aware Cache Fusion via Compressed View for Efficient RAG Serving

作者: Jianxin Yan, Wangze Ni, Zhenxin Li, Jiabao Jin, Zhitao Shen, Haoyang Li, Jia Zhu, Peng Cheng, Xuemin Lin, Lei Chen, Kui Ren

分类: cs.AI, cs.DB

发布日期: 2026-06-04

💡 一句话要点

提出QCFuse以解决RAG缓存融合效率问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 缓存融合 查询选择器 大型语言模型 效率提升 块锚查询 关键层分析

📋 核心要点

现有RAG缓存融合方法在质量与效率之间存在权衡，快速的查询无关选择器可能遗漏相关证据。
QCFuse通过块锚查询探测和关键层分析，优化了查询感知选择器的设计，提升了重计算效率。
在六个数据集上，QCFuse实现了与完整预填充相同的质量，并在速度上平均提升1.7倍，表现优异。

📝 摘要（中文）

检索增强生成（RAG）通过外部证据提升大型语言模型（LLM）的回答质量，但处理检索到的上下文使得预填充阶段成为主要的服务成本。RAG缓存融合通过重用预计算的键值（KV）缓存来降低这一成本，但现有选择器在质量与效率之间存在困境。本文提出QCFuse，一种压缩视图的查询感知选择器，利用块锚查询探测和关键层分析来高效识别重计算的令牌。实验表明，QCFuse在六个数据集上实现了与完整预填充相同的质量，同时在速度上平均提升1.7倍。

🔬 方法详解

问题定义：本文旨在解决RAG缓存融合中的效率问题，现有方法在查询选择时面临质量与效率的权衡，导致服务成本高昂。

核心思路：QCFuse通过压缩视图的查询感知选择器，利用块锚查询探测来优化用户查询状态，并通过关键层分析识别重计算令牌，从而避免全层检查带来的延迟。

技术框架：QCFuse的整体架构包括查询探测模块和重计算模块。查询探测模块负责根据用户查询状态生成块锚，而重计算模块则根据关键层分析决定哪些令牌需要重计算。

关键创新：QCFuse的主要创新在于其压缩视图的设计，使得选择器在不需要全层可见性的情况下，依然能够高效地进行重计算，显著提升了缓存融合的效率。

关键设计：在设计中，QCFuse采用了块锚查询探测和关键层分析的组合，确保了在保持高质量的同时，减少了重计算的时间开销。

🖼️ 关键图片

📊 实验亮点

QCFuse在六个数据集上的实验结果显示，其在保持与完整预填充相同的质量的同时，平均预填充时间提升了1.7倍，相较于最强基线ProphetKV也实现了1.5倍的速度提升，展现了显著的性能优势。

🎯 应用场景

QCFuse的研究成果在大型语言模型的应用中具有广泛的潜在价值，尤其是在需要快速响应的实时系统中，如智能客服、在线教育和信息检索等领域。通过提升RAG的效率，能够显著改善用户体验和系统性能。

📄 摘要（原文）

Retrieval-augmented generation (RAG) improves large language model (LLM) answer quality by grounding generation in external evidence, but processing retrieved contexts makes the prefill stage a dominant serving cost. RAG cache fusion reduces this cost by reusing precomputed key-value (KV) caches for retrieved chunks and selectively recomputing tokens under the current prompt. Existing selectors, however, face a dilemma between quality and efficiency: fast query-agnostic or final-layer query-to-context selectors can miss request-relevant evidence, whereas full-view query-aware selectors require broad context and layer visibility before recomputation and therefore stall the layer-wise cache-fusion pipeline. We present QCFuse, a compressed-view query-aware selector for RAG cache fusion. QCFuse uses chunk-anchor query probing to condition user-query states on compact per-chunk anchors and critical-layer profiling to identify recomputation tokens without all-layer inspection. We implement QCFuse in SGLang and evaluate it on four open-weight LLMs across six datasets. QCFuse reaches full-prefill-level quality. At matched quality, QCFuse achieves an average prefill-time speedup of 1.7x over full prefill and 1.5x over ProphetKV, the strongest quality-preserving baseline.

QCFuse: Query-Aware Cache Fusion via Compressed View for Efficient RAG Serving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理