RACER: Retrieval-Augmented Contextual Rapid Speculative Decoding

作者: Zihong Zhang, Zuchao Li, Lefei Zhang, Ping Wang, Hai Zhao

分类: cs.CL, cs.AI

发布日期: 2026-04-16

备注: Accepted to Findings of ACL 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出RACER，融合检索与logits信息加速LLM推断，无需训练。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推测解码 检索增强 快速推理 免训练方法

📋 核心要点

现有免训练推测解码方法在检索精确匹配和logits引导之间存在trade-off，影响解码效率。
RACER融合检索的精确匹配模式和logits驱动的未来线索，提供可靠锚点和灵活外推，生成更丰富的草案。
实验表明，RACER在多个benchmark上加速推理超过2倍，优于现有免训练方法，且易于部署。

📝 摘要（中文）

大型语言模型(LLMs)中的自回归解码每次生成一个token，导致较高的推理延迟。推测解码(SD)通过猜测和验证策略来缓解这个问题，但现有的免训练变体面临权衡：基于检索的草案在不存在完全匹配时会失效，而基于logits的草案缺乏结构指导。我们提出了RACER（检索增强上下文快速推测解码），这是一种轻量级的免训练方法，它将检索到的精确模式与logits驱动的未来线索相结合。这种统一提供了可靠的锚点和灵活的外推，从而产生更丰富的推测草案。在Spec-Bench、HumanEval和MGSM-ZH上的实验表明，RACER始终加速推理，实现了超过2倍于自回归解码的速度提升，并且优于先前的免训练方法，为高效的LLM解码提供了一个可扩展的、即插即用的解决方案。我们的源代码可在https://github.com/hkr04/RACER获得。

🔬 方法详解

问题定义：大型语言模型自回归解码速度慢，严重影响推理效率。现有的免训练推测解码方法，如基于检索的方法依赖精确匹配，泛化能力差；基于logits的方法缺乏结构性指导，导致推测不准确。

核心思路：RACER的核心思想是将检索到的精确匹配片段作为可靠的“锚点”，并利用logits信息进行外推，从而生成更准确、更长的推测序列。通过结合两种信息的优势，弥补各自的不足。

技术框架：RACER主要包含两个阶段：检索阶段和logits引导阶段。在检索阶段，使用上下文作为query，从预先构建的索引中检索相似的文本片段。在logits引导阶段，利用语言模型的logits分布，结合检索到的片段，生成推测序列。最后，使用目标语言模型验证推测序列的正确性。

关键创新：RACER的关键创新在于融合了检索和logits信息，既利用了检索的精确性，又利用了logits的灵活性。这种融合方式使得RACER能够生成更长、更准确的推测序列，从而显著加速解码过程。此外，RACER是完全免训练的，易于部署和应用。

关键设计：RACER使用余弦相似度来衡量上下文和检索片段之间的相似度。在logits引导阶段，使用温度系数来控制生成序列的多样性。具体而言，通过调整温度系数，可以控制logits分布的平滑程度，从而影响生成序列的随机性。此外，RACER还使用了一个阈值来过滤掉相似度较低的检索结果，以保证检索结果的质量。

🖼️ 关键图片

📊 实验亮点

RACER在Spec-Bench、HumanEval和MGSM-ZH等benchmark上进行了评估，实验结果表明，RACER能够实现超过2倍于自回归解码的速度提升，并且优于现有的免训练推测解码方法。例如，在HumanEval上，RACER在加速推理的同时，保持了与自回归解码相当的性能。

🎯 应用场景

RACER作为一种高效的LLM解码加速方法，可广泛应用于各种需要快速推理的场景，例如在线对话系统、实时翻译、内容生成等。其免训练特性使其易于集成到现有系统中，具有很高的实际应用价值。未来，可以探索将RACER应用于更复杂的任务，例如代码生成、知识图谱推理等。

📄 摘要（原文）

Autoregressive decoding in Large Language Models (LLMs) generates one token per step, causing high inference latency. Speculative decoding (SD) mitigates this through a guess-and-verify strategy, but existing training-free variants face trade-offs: retrieval-based drafts break when no exact match exists, while logits-based drafts lack structural guidance. We propose $\textbf{RACER}$ ($\textbf{R}$etrieval-$\textbf{A}$ugmented $\textbf{C}$ont$\textbf{e}$xtual $\textbf{R}$apid Speculative Decoding), a lightweight and training-free method that integrates retrieved exact patterns with logit-driven future cues. This unification supplies both reliable anchors and flexible extrapolation, yielding richer speculative drafts. Experiments on Spec-Bench, HumanEval, and MGSM-ZH demonstrate that RACER consistently accelerates inference, achieving more than $2\times$ speedup over autoregressive decoding, and outperforms prior training-free methods, offering a scalable, plug-and-play solution for efficient LLM decoding. Our source code is available at $\href{https://github.com/hkr04/RACER}{https://github.com/hkr04/RACER}$.

RACER: Retrieval-Augmented Contextual Rapid Speculative Decoding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理