Task-Centric Acceleration of Small-Language Models

作者: Dor Tsur, Sharon Adar, Ran Levy

分类: cs.CL, cs.AI, cs.IT

发布日期: 2026-02-27

💡 一句话要点

TASC：面向任务的小语言模型加速框架，通过自适应序列压缩提升效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 小语言模型 模型加速 序列压缩 任务自适应 推测解码

📋 核心要点

小语言模型在特定任务中表现出效率优势，但现有方法在高吞吐低延迟场景下仍面临效率挑战。
TASC框架通过任务自适应的序列压缩，在微调和推理阶段分别优化，提升SLM的效率。
实验表明，TASC在多个生成任务中，能够在保持性能的同时，显著提高推理效率。

📝 摘要（中文）

本文提出TASC，一种小语言模型（SLM）加速框架，专注于任务特定的应用。由于SLM常用于高吞吐、低延迟的场景，效率至关重要。TASC包含两种使用场景：TASC-ft，用于SLM微调，通过迭代地用高频输出n-gram丰富tokenizer词汇表，然后微调模型以利用扩展的词汇表。TASC-spec，一种推理时方法，是一种轻量级的、免训练的推测解码方法，它从任务的输出语料库中构建一个n-gram草稿模型，混合任务和上下文n-gram信息。TASC-spec避免了任何额外的训练，同时绕过了草稿-目标词汇对齐的约束。实验证明了这两种方法在多个低输出可变性生成任务中的有效性。我们的方法在保持任务性能的同时，始终如一地提高了推理效率。

🔬 方法详解

问题定义：论文旨在解决小语言模型（SLM）在任务特定应用中，尤其是在高吞吐量、低延迟场景下的效率问题。现有方法可能无法充分利用任务的特性进行优化，导致推理速度受限。

核心思路：TASC的核心思路是利用任务的输出语料库中的统计信息，通过自适应的序列压缩来减少计算量。具体来说，TASC-ft通过扩展tokenizer词汇表来减少序列长度，TASC-spec则通过构建n-gram草稿模型进行推测解码。

技术框架：TASC框架包含两个主要模块：TASC-ft和TASC-spec。TASC-ft用于微调阶段，首先迭代地从任务输出中提取高频n-gram，并将其添加到tokenizer的词汇表中，然后使用扩展的词汇表对模型进行微调。TASC-spec用于推理阶段，它构建一个基于n-gram的草稿模型，用于推测解码，无需额外训练。

关键创新：TASC的关键创新在于其任务自适应性，能够根据特定任务的输出分布进行优化。TASC-spec避免了草稿模型和目标模型之间词汇对齐的约束，从而简化了推测解码的过程。此外，TASC-spec是免训练的，可以直接应用于预训练模型。

关键设计：TASC-ft的关键设计在于如何选择高频n-gram添加到词汇表中，以及如何平衡词汇表的大小和模型的性能。TASC-spec的关键设计在于如何构建有效的n-gram草稿模型，以及如何将草稿模型的输出与目标模型对齐。具体实现细节未知，论文可能未详细描述。

🖼️ 关键图片

📊 实验亮点

论文在多个低输出可变性生成任务上验证了TASC的有效性。实验结果表明，TASC能够在保持任务性能的同时，显著提高推理效率。具体的性能提升数据未知，但摘要中强调了“consistent improvements in inference efficiency while maintaining task performance”。

🎯 应用场景

TASC框架可应用于各种需要高效率、低延迟的小语言模型应用场景，例如：智能客服、机器翻译、文本摘要、代码生成等。通过提升SLM的推理速度，可以降低部署成本，提高用户体验，并促进SLM在资源受限环境中的应用。该研究对于推动小模型在实际场景中的应用具有重要意义。

📄 摘要（原文）

Small language models (SLMs) have emerged as efficient alternatives to large language models for task-specific applications. However, they are often employed in high-volume, low-latency settings, where efficiency is crucial. We propose TASC, Task-Adaptive Sequence Compression, a framework for SLM acceleration comprising two use-cases: When performing SLM fine-tuning, we propose TASC-ft, which iteratively enriches the tokenizer vocabulary with high-frequency output n-grams and then fine-tunes the model to utilize the expanded vocabulary. Next, we propose an inference-time method, termed TASC-spec. TASC-spec is a lightweight, training-free speculative decoding method that constructs an n-gram draft model from the task's output corpus, mixing task and context n-gram information.TASC-spec avoids any additional training, while bypassing draft-target vocabulary alignment constraints. We demonstrate the effectiveness of both methods across multiple low output-variability generation tasks. Our methods show consistent improvements in inference efficiency while maintaining task performance.

Task-Centric Acceleration of Small-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理