RACER: Retrieval-Augmented Contextual Rapid Speculative Decoding
作者: Zihong Zhang, Zuchao Li, Lefei Zhang, Ping Wang, Hai Zhao
分类: cs.CL, cs.AI
发布日期: 2026-04-16
备注: Accepted to Findings of ACL 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出RACER,融合检索与logits信息加速LLM推断,无需训练。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 推测解码 检索增强 快速推理 免训练方法
📋 核心要点
- 现有免训练推测解码方法在检索精确匹配和logits引导之间存在trade-off,影响解码效率。
- RACER融合检索的精确匹配模式和logits驱动的未来线索,提供可靠锚点和灵活外推,生成更丰富的草案。
- 实验表明,RACER在多个benchmark上加速推理超过2倍,优于现有免训练方法,且易于部署。
📝 摘要(中文)
大型语言模型(LLMs)中的自回归解码每次生成一个token,导致较高的推理延迟。推测解码(SD)通过猜测和验证策略来缓解这个问题,但现有的免训练变体面临权衡:基于检索的草案在不存在完全匹配时会失效,而基于logits的草案缺乏结构指导。我们提出了RACER(检索增强上下文快速推测解码),这是一种轻量级的免训练方法,它将检索到的精确模式与logits驱动的未来线索相结合。这种统一提供了可靠的锚点和灵活的外推,从而产生更丰富的推测草案。在Spec-Bench、HumanEval和MGSM-ZH上的实验表明,RACER始终加速推理,实现了超过2倍于自回归解码的速度提升,并且优于先前的免训练方法,为高效的LLM解码提供了一个可扩展的、即插即用的解决方案。我们的源代码可在https://github.com/hkr04/RACER获得。
🔬 方法详解
问题定义:大型语言模型自回归解码速度慢,严重影响推理效率。现有的免训练推测解码方法,如基于检索的方法依赖精确匹配,泛化能力差;基于logits的方法缺乏结构性指导,导致推测不准确。
核心思路:RACER的核心思想是将检索到的精确匹配片段作为可靠的“锚点”,并利用logits信息进行外推,从而生成更准确、更长的推测序列。通过结合两种信息的优势,弥补各自的不足。
技术框架:RACER主要包含两个阶段:检索阶段和logits引导阶段。在检索阶段,使用上下文作为query,从预先构建的索引中检索相似的文本片段。在logits引导阶段,利用语言模型的logits分布,结合检索到的片段,生成推测序列。最后,使用目标语言模型验证推测序列的正确性。
关键创新:RACER的关键创新在于融合了检索和logits信息,既利用了检索的精确性,又利用了logits的灵活性。这种融合方式使得RACER能够生成更长、更准确的推测序列,从而显著加速解码过程。此外,RACER是完全免训练的,易于部署和应用。
关键设计:RACER使用余弦相似度来衡量上下文和检索片段之间的相似度。在logits引导阶段,使用温度系数来控制生成序列的多样性。具体而言,通过调整温度系数,可以控制logits分布的平滑程度,从而影响生成序列的随机性。此外,RACER还使用了一个阈值来过滤掉相似度较低的检索结果,以保证检索结果的质量。
🖼️ 关键图片
📊 实验亮点
RACER在Spec-Bench、HumanEval和MGSM-ZH等benchmark上进行了评估,实验结果表明,RACER能够实现超过2倍于自回归解码的速度提升,并且优于现有的免训练推测解码方法。例如,在HumanEval上,RACER在加速推理的同时,保持了与自回归解码相当的性能。
🎯 应用场景
RACER作为一种高效的LLM解码加速方法,可广泛应用于各种需要快速推理的场景,例如在线对话系统、实时翻译、内容生成等。其免训练特性使其易于集成到现有系统中,具有很高的实际应用价值。未来,可以探索将RACER应用于更复杂的任务,例如代码生成、知识图谱推理等。
📄 摘要(原文)
Autoregressive decoding in Large Language Models (LLMs) generates one token per step, causing high inference latency. Speculative decoding (SD) mitigates this through a guess-and-verify strategy, but existing training-free variants face trade-offs: retrieval-based drafts break when no exact match exists, while logits-based drafts lack structural guidance. We propose $\textbf{RACER}$ ($\textbf{R}$etrieval-$\textbf{A}$ugmented $\textbf{C}$ont$\textbf{e}$xtual $\textbf{R}$apid Speculative Decoding), a lightweight and training-free method that integrates retrieved exact patterns with logit-driven future cues. This unification supplies both reliable anchors and flexible extrapolation, yielding richer speculative drafts. Experiments on Spec-Bench, HumanEval, and MGSM-ZH demonstrate that RACER consistently accelerates inference, achieving more than $2\times$ speedup over autoregressive decoding, and outperforms prior training-free methods, offering a scalable, plug-and-play solution for efficient LLM decoding. Our source code is available at $\href{https://github.com/hkr04/RACER}{https://github.com/hkr04/RACER}$.