Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

📄 arXiv: 2512.05033v2 📥 PDF

作者: Monishwaran Maheswaran, Rishabh Tiwari, Yuezhou Hu, Kerem Dilmen, Coleman Hooper, Haocheng Xi, Nicholas Lee, Mehrdad Farajtabar, Michael W. Mahoney, Kurt Keutzer, Amir Gholami

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-12-04 (更新: 2025-12-09)

备注: 22 pages


💡 一句话要点

Arbitrage:利用优势感知推测实现高效推理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 推测解码 大型语言模型 推理加速 动态路由 优势感知

📋 核心要点

  1. 现有token级和步骤级推测解码方法在推理任务中存在效率瓶颈,主要原因是token不匹配和不必要的步骤重新生成。
  2. Arbitrage通过训练一个轻量级路由器,根据草稿模型和目标模型的相对优势动态路由生成步骤,避免无效计算。
  3. 实验表明,Arbitrage在数学推理任务上显著优于现有步骤级推测解码方法,推理延迟降低高达2倍。

📝 摘要(中文)

现代大型语言模型通过长链式思考展现了令人印象深刻的推理能力,但在推理过程中产生了巨大的计算成本,这促使人们寻求提高性能成本比的技术。推测解码通过使用快速但不精确的草稿模型来自动回归地提出tokens,然后由更强大的目标模型并行验证,从而加速推理。然而,由于语义等效步骤中token不匹配导致的不必要拒绝,传统的token级推测解码在推理任务中表现不佳。虽然最近的工作已经转向步骤级语义验证,通过接受或拒绝整个推理步骤来提高效率,但现有的步骤级方法仍然会重新生成许多改进甚微的被拒绝步骤,浪费了宝贵的目标计算资源。为了解决这个挑战,我们提出Arbitrage,一种新颖的步骤级推测生成框架,它根据草稿模型和目标模型之间的相对优势动态地路由生成。Arbitrage没有应用固定的接受阈值,而是使用一个轻量级路由器来预测目标模型何时可能产生明显更好的步骤。这种路由近似于一个理想的套利预言机,它总是选择更高质量的步骤,从而实现接近最优的效率-准确性权衡。在多个数学推理基准测试中,Arbitrage始终优于先前的步骤级推测解码基线,在匹配的准确率下,推理延迟最多可降低约2倍。

🔬 方法详解

问题定义:论文旨在解决大型语言模型推理过程中计算成本高昂的问题,尤其是在使用推测解码加速推理时,由于token级推测解码的token不匹配和步骤级推测解码的无效步骤重生成,导致效率低下。现有方法无法充分利用草稿模型和目标模型之间的优势差异,造成计算资源的浪费。

核心思路:论文的核心思路是引入一个“套利”机制,即根据草稿模型和目标模型在每一步推理中的相对优势,动态地选择使用哪个模型的输出。通过训练一个轻量级的路由器,预测目标模型是否能产生明显优于草稿模型的步骤,从而避免不必要的计算,实现更高效的推理。

技术框架:Arbitrage框架包含以下主要模块:1) 草稿模型:用于快速生成推理步骤;2) 目标模型:用于验证和生成高质量的推理步骤;3) 路由器:一个轻量级的模型,用于预测目标模型是否能产生比草稿模型更好的步骤;4) 路由机制:根据路由器的预测结果,选择使用草稿模型或目标模型的输出。整体流程是,草稿模型生成一个步骤,路由器评估该步骤的质量,如果路由器预测目标模型能生成更好的步骤,则使用目标模型生成,否则使用草稿模型的输出。

关键创新:Arbitrage的关键创新在于引入了优势感知的动态路由机制。与传统的推测解码方法不同,Arbitrage不是简单地接受或拒绝草稿模型的输出,而是根据草稿模型和目标模型的相对优势进行选择。这种动态路由机制能够更有效地利用计算资源,提高推理效率。

关键设计:路由器的设计是Arbitrage的关键。路由器可以是一个小型神经网络,输入是草稿模型生成的步骤和上下文信息,输出是目标模型生成更好步骤的概率。训练路由器可以使用强化学习或监督学习方法,目标是最大化推理效率和准确率之间的权衡。损失函数可以设计为同时考虑推理延迟和准确率,例如,可以使用延迟作为惩罚项,准确率作为奖励项。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Arbitrage在多个数学推理基准测试中取得了显著的性能提升。实验结果表明,在保持相同准确率的情况下,Arbitrage可以将推理延迟降低高达2倍,显著优于现有的步骤级推测解码方法。这表明Arbitrage能够更有效地利用计算资源,实现更高效的推理。

🎯 应用场景

Arbitrage可应用于各种需要高效推理的大型语言模型应用场景,例如数学问题求解、代码生成、知识问答等。通过降低推理延迟,Arbitrage可以提高用户体验,并降低部署成本。未来,Arbitrage可以扩展到其他类型的推理任务和模型架构,进一步提升推理效率。

📄 摘要(原文)

Modern Large Language Models achieve impressive reasoning capabilities with long Chain of Thoughts, but they incur substantial computational cost during inference, and this motivates techniques to improve the performance-cost ratio. Among these techniques, Speculative Decoding accelerates inference by employing a fast but inaccurate draft model to autoregressively propose tokens, which are then verified in parallel by a more capable target model. However, due to unnecessary rejections caused by token mismatches in semantically equivalent steps, traditional token-level Speculative Decoding struggles in reasoning tasks. Although recent works have shifted to step-level semantic verification, which improve efficiency by accepting or rejecting entire reasoning steps, existing step-level methods still regenerate many rejected steps with little improvement, wasting valuable target compute. To address this challenge, we propose Arbitrage, a novel step-level speculative generation framework that routes generation dynamically based on the relative advantage between draft and target models. Instead of applying a fixed acceptance threshold, Arbitrage uses a lightweight router trained to predict when the target model is likely to produce a meaningfully better step. This routing approximates an ideal Arbitrage Oracle that always chooses the higher-quality step, achieving near-optimal efficiency-accuracy trade-offs. Across multiple mathematical reasoning benchmarks, Arbitrage consistently surpasses prior step-level Speculative Decoding baselines, reducing inference latency by up to $\sim2\times$ at matched accuracy.