RAPID: Long-Context Inference with Retrieval-Augmented Speculative Decoding

作者: Guanzheng Chen, Qilong Feng, Jinjie Ni, Xin Li, Michael Qizhe Shieh

分类: cs.CL

发布日期: 2025-02-27 (更新: 2025-06-23)

备注: ICML 2025 Spotlight

💡 一句话要点

RAPID：检索增强推测解码加速长文本LLM推理并提升生成质量

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长文本推理 检索增强生成 推测解码 大型语言模型 知识转移

📋 核心要点

长文本LLM推理计算开销大，传统推测解码在长文本场景下效率降低，主要受限于KV缓存的内存瓶颈。
RAPID利用RAG，通过在缩短的检索上下文中运行的RAG drafter来推测长文本目标LLM的生成，实现加速和质量提升。
实验表明，RAPID有效整合了RAG和长文本LLM的优势，在长文本推理中实现了显著的性能提升和加速效果。

📝 摘要（中文）

长文本大型语言模型（LLMs）的出现为处理大量文档提供了一种有希望的替代方案，以取代传统的检索增强生成（RAG）。然而，长文本推理的计算开销带来了巨大的效率挑战。虽然推测解码（SD）传统上使用较小的草稿模型来加速推理，但由于受限于内存的KV缓存操作，其有效性在长文本场景中大大降低。我们引入了检索增强推测解码（RAPID），它利用RAG来加速和增强长文本推理中的生成质量。RAPID引入了RAG drafter——一个在缩短的检索上下文中运行的草稿LLM——来推测长文本目标LLM的生成。我们的方法实现了一种新的范例，即相同规模甚至更大的LLM可以充当RAG drafter，同时保持计算效率。为了充分利用更强大的RAG drafter的潜在优势，我们开发了一种推理时知识转移方法，通过RAG来丰富目标分布。在LLaMA-3.1和Qwen2.5主干上的大量实验表明，RAPID有效地整合了RAG和长文本LLM的优势，实现了显著的性能提升（例如，在LLaMA-3.1-8B的InfiniteBench上从39.33提升到42.83），并且长文本推理的速度提高了2倍以上。我们的分析还揭示了RAPID在各种上下文长度和检索质量上的鲁棒性。

🔬 方法详解

问题定义：论文旨在解决长文本LLM推理效率低下的问题。现有方法，如传统的推测解码，在长文本场景中由于KV缓存的内存限制，加速效果显著降低。此外，如何有效利用RAG增强长文本LLM的生成质量也是一个挑战。

核心思路：论文的核心思路是利用RAG来辅助推测解码过程。具体来说，使用一个RAG drafter（一个在缩短的检索上下文中运行的LLM）来预测长文本目标LLM的输出。通过这种方式，可以在保证计算效率的同时，利用RAG的知识增强能力。

技术框架：RAPID框架包含以下主要模块：1) RAG Drafter：负责在缩短的检索上下文中生成草稿。2) Target LLM：长文本目标LLM，用于验证草稿并生成最终输出。3) 检索模块：负责从外部知识库中检索相关信息，提供给RAG Drafter。4) 推理时知识转移：利用RAG增强目标LLM的生成分布。整体流程是，首先检索相关文档，然后RAG Drafter基于检索结果生成草稿，最后Target LLM验证草稿并生成最终结果。

关键创新：RAPID的关键创新在于将RAG与推测解码相结合，提出了一种新的推理范式。与传统的推测解码不同，RAPID使用RAG drafter，可以在保证效率的同时，利用RAG的知识增强能力。此外，推理时知识转移机制进一步提升了生成质量。

关键设计：RAG Drafter可以使用与Target LLM相同规模甚至更大的模型，这与传统推测解码中使用较小模型作为drafter不同。检索模块的选择和检索质量对RAPID的性能有重要影响。推理时知识转移的具体实现方式（例如，如何融合RAG drafter和Target LLM的输出分布）也是一个关键设计。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RAPID在LLaMA-3.1和Qwen2.5等模型上取得了显著的性能提升。例如，在LLaMA-3.1-8B的InfiniteBench测试中，RAPID将性能从39.33提升到42.83。同时，RAPID实现了超过2倍的推理速度提升。实验还验证了RAPID在不同上下文长度和检索质量下的鲁棒性。

🎯 应用场景

RAPID可应用于需要处理大量文本信息的各种场景，例如：法律文档分析、金融报告解读、医学文献检索、长篇小说创作等。该研究可以显著提升长文本LLM在这些领域的应用效率和生成质量，降低计算成本，并促进相关技术的进一步发展。

📄 摘要（原文）

The emergence of long-context large language models (LLMs) offers a promising alternative to traditional retrieval-augmented generation (RAG) for processing extensive documents. However, the computational overhead of long-context inference presents significant efficiency challenges. While Speculative Decoding (SD) traditionally accelerates inference using smaller draft models, its effectiveness diminishes substantially in long-context scenarios due to memory-bound KV cache operations. We introduce Retrieval-Augmented Speculative Decoding (RAPID), which leverages RAG for both accelerating and enhancing generation quality in long-context inference. RAPID introduces the RAG drafter-a draft LLM operating on shortened retrieval contexts-to speculate on the generation of long-context target LLMs. Our approach enables a new paradigm where same-scale or even larger LLMs can serve as RAG drafters while maintaining computational efficiency. To fully leverage the potentially superior capabilities from stronger RAG drafters, we develop an inference-time knowledge transfer that enriches the target distribution by RAG. Extensive experiments on the LLaMA-3.1 and Qwen2.5 backbones demonstrate that RAPID effectively integrates the strengths of both RAG and long-context LLMs, achieving significant performance improvements (e.g., from 39.33 to 42.83 on InfiniteBench for LLaMA-3.1-8B) with more than 2x speedups for long-context inference. Our analyses also reveal the robustness of RAPID across various context lengths and retrieval quality.

RAPID: Long-Context Inference with Retrieval-Augmented Speculative Decoding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理