ToolSpec: Accelerating Tool Calling via Schema-Aware and Retrieval-Augmented Speculative Decoding

📄 arXiv: 2604.13519v1 📥 PDF

作者: Heming Xia, Yongqi Li, Cunxiao Du, Mingbo Song, Wenjie Li

分类: cs.CL

发布日期: 2026-04-15


💡 一句话要点

ToolSpec:通过模式感知和检索增强的推测解码加速工具调用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工具调用 大型语言模型 推测解码 模式感知 检索增强

📋 核心要点

  1. 现有LLM工具调用存在多步骤交互导致的延迟问题,影响实时服务。
  2. ToolSpec利用工具模式的结构化特性,结合检索增强推测解码加速工具调用。
  3. 实验表明,ToolSpec在多个基准测试中实现了高达4.2倍的加速效果。

📝 摘要(中文)

工具调用通过使大型语言模型(LLM)能够与外部应用程序交互,极大地扩展了它们的实用性。随着LLM能力的提升,有效的工具使用越来越多地涉及多步骤、多轮交互来解决复杂任务。然而,由此产生的工具交互增长带来了巨大的延迟,对实时LLM服务提出了关键挑战。通过实证分析,我们发现工具调用轨迹具有高度结构化,符合约束模式,并且经常表现出重复的调用模式。受此启发,我们提出ToolSpec,一种模式感知、检索增强的推测解码方法,用于加速工具调用。ToolSpec利用预定义的工具模式来生成准确的草稿,使用有限状态机在确定性模式令牌填充和变量字段的推测生成之间交替。此外,ToolSpec检索相似的历史工具调用,并将它们重用为草稿,以进一步提高效率。ToolSpec提供了一种即插即用的解决方案,可以无缝集成到现有的LLM工作流程中。跨多个基准的实验表明,ToolSpec实现了高达4.2倍的加速,大大优于现有的无训练推测解码方法。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在工具调用过程中,由于多步骤、多轮交互导致的延迟问题。现有的方法在处理复杂的工具调用场景时,效率较低,无法满足实时服务的需求。

核心思路:ToolSpec的核心思路是利用工具调用的结构化特性(即工具模式)和历史调用记录的相似性,通过模式感知和检索增强的推测解码来加速工具调用过程。通过预定义的工具模式约束生成过程,并利用历史调用记录作为草稿,减少LLM的计算量。

技术框架:ToolSpec的整体框架包含以下几个主要模块:1) 模式定义:预先定义工具的模式,包括输入参数的类型、格式等。2) 有限状态机(FSM):根据工具模式,使用FSM在确定性模式令牌填充和变量字段的推测生成之间切换。3) 检索模块:检索与当前调用相似的历史工具调用记录。4) 推测解码:利用模式信息和检索到的历史调用记录生成草稿,加速解码过程。

关键创新:ToolSpec的关键创新在于将模式感知和检索增强结合到推测解码中。传统的推测解码方法通常依赖于较小的模型生成草稿,而ToolSpec则利用工具模式和历史调用记录来生成更准确的草稿,从而提高加速效果。

关键设计:ToolSpec的关键设计包括:1) 模式定义:需要仔细定义工具的模式,确保模式能够准确描述工具的输入输出。2) 相似度度量:在检索模块中,需要设计合适的相似度度量方法,以找到与当前调用最相似的历史调用记录。3) FSM状态转移规则:需要根据工具模式设计FSM的状态转移规则,确保生成的草稿符合模式约束。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ToolSpec在多个基准测试中表现出色,实现了高达4.2倍的加速,显著优于现有的无训练推测解码方法。实验结果表明,ToolSpec能够有效地利用工具模式和历史调用记录来加速工具调用过程,从而提高LLM的效率。

🎯 应用场景

ToolSpec可应用于各种需要LLM进行工具调用的场景,例如智能助手、自动化工作流程、API集成等。通过降低工具调用延迟,可以提升用户体验,并使LLM能够更高效地完成复杂任务。该研究对于推动LLM在实际应用中的部署具有重要意义。

📄 摘要(原文)

Tool calling has greatly expanded the practical utility of large language models (LLMs) by enabling them to interact with external applications. As LLM capabilities advance, effective tool use increasingly involves multi-step, multi-turn interactions to solve complex tasks. However, the resulting growth in tool interactions incurs substantial latency, posing a key challenge for real-time LLM serving. Through empirical analysis, we find that tool-calling traces are highly structured, conform to constrained schemas, and often exhibit recurring invocation patterns. Motivated by this, we propose ToolSpec, a schema-aware, retrieval-augmented speculative decoding method for accelerating tool calling. ToolSpec exploits predefined tool schemas to generate accurate drafts, using a finite-state machine to alternate between deterministic schema token filling and speculative generation for variable fields. In addition, ToolSpec retrieves similar historical tool invocations and reuses them as drafts to further improve efficiency. ToolSpec presents a plug-and-play solution that can be seamlessly integrated into existing LLM workflows. Experiments across multiple benchmarks demonstrate that ToolSpec achieves up to a 4.2x speedup, substantially outperforming existing training-free speculative decoding methods.