Task-Centric Acceleration of Small-Language Models

📄 arXiv: 2602.24174v1 📥 PDF

作者: Dor Tsur, Sharon Adar, Ran Levy

分类: cs.CL, cs.AI, cs.IT

发布日期: 2026-02-27


💡 一句话要点

TASC:面向任务的小语言模型加速框架,通过自适应序列压缩提升效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 小语言模型 模型加速 序列压缩 任务自适应 推测解码

📋 核心要点

  1. 小语言模型在特定任务中表现出效率优势,但现有方法在高吞吐低延迟场景下仍面临效率挑战。
  2. TASC框架通过任务自适应的序列压缩,在微调和推理阶段分别优化,提升SLM的效率。
  3. 实验表明,TASC在多个生成任务中,能够在保持性能的同时,显著提高推理效率。

📝 摘要(中文)

本文提出TASC,一种小语言模型(SLM)加速框架,专注于任务特定的应用。由于SLM常用于高吞吐、低延迟的场景,效率至关重要。TASC包含两种使用场景:TASC-ft,用于SLM微调,通过迭代地用高频输出n-gram丰富tokenizer词汇表,然后微调模型以利用扩展的词汇表。TASC-spec,一种推理时方法,是一种轻量级的、免训练的推测解码方法,它从任务的输出语料库中构建一个n-gram草稿模型,混合任务和上下文n-gram信息。TASC-spec避免了任何额外的训练,同时绕过了草稿-目标词汇对齐的约束。实验证明了这两种方法在多个低输出可变性生成任务中的有效性。我们的方法在保持任务性能的同时,始终如一地提高了推理效率。

🔬 方法详解

问题定义:论文旨在解决小语言模型(SLM)在任务特定应用中,尤其是在高吞吐量、低延迟场景下的效率问题。现有方法可能无法充分利用任务的特性进行优化,导致推理速度受限。

核心思路:TASC的核心思路是利用任务的输出语料库中的统计信息,通过自适应的序列压缩来减少计算量。具体来说,TASC-ft通过扩展tokenizer词汇表来减少序列长度,TASC-spec则通过构建n-gram草稿模型进行推测解码。

技术框架:TASC框架包含两个主要模块:TASC-ft和TASC-spec。TASC-ft用于微调阶段,首先迭代地从任务输出中提取高频n-gram,并将其添加到tokenizer的词汇表中,然后使用扩展的词汇表对模型进行微调。TASC-spec用于推理阶段,它构建一个基于n-gram的草稿模型,用于推测解码,无需额外训练。

关键创新:TASC的关键创新在于其任务自适应性,能够根据特定任务的输出分布进行优化。TASC-spec避免了草稿模型和目标模型之间词汇对齐的约束,从而简化了推测解码的过程。此外,TASC-spec是免训练的,可以直接应用于预训练模型。

关键设计:TASC-ft的关键设计在于如何选择高频n-gram添加到词汇表中,以及如何平衡词汇表的大小和模型的性能。TASC-spec的关键设计在于如何构建有效的n-gram草稿模型,以及如何将草稿模型的输出与目标模型对齐。具体实现细节未知,论文可能未详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在多个低输出可变性生成任务上验证了TASC的有效性。实验结果表明,TASC能够在保持任务性能的同时,显著提高推理效率。具体的性能提升数据未知,但摘要中强调了“consistent improvements in inference efficiency while maintaining task performance”。

🎯 应用场景

TASC框架可应用于各种需要高效率、低延迟的小语言模型应用场景,例如:智能客服、机器翻译、文本摘要、代码生成等。通过提升SLM的推理速度,可以降低部署成本,提高用户体验,并促进SLM在资源受限环境中的应用。该研究对于推动小模型在实际场景中的应用具有重要意义。

📄 摘要(原文)

Small language models (SLMs) have emerged as efficient alternatives to large language models for task-specific applications. However, they are often employed in high-volume, low-latency settings, where efficiency is crucial. We propose TASC, Task-Adaptive Sequence Compression, a framework for SLM acceleration comprising two use-cases: When performing SLM fine-tuning, we propose TASC-ft, which iteratively enriches the tokenizer vocabulary with high-frequency output n-grams and then fine-tunes the model to utilize the expanded vocabulary. Next, we propose an inference-time method, termed TASC-spec. TASC-spec is a lightweight, training-free speculative decoding method that constructs an n-gram draft model from the task's output corpus, mixing task and context n-gram information.TASC-spec avoids any additional training, while bypassing draft-target vocabulary alignment constraints. We demonstrate the effectiveness of both methods across multiple low output-variability generation tasks. Our methods show consistent improvements in inference efficiency while maintaining task performance.