Faster Parameter-Efficient Tuning with Token Redundancy Reduction

📄 arXiv: 2503.20282v2 📥 PDF

作者: Kwonyoung Kim, Jungin Park, Jin Kim, Hyeongjun Kwon, Kwanghoon Sohn

分类: cs.CV, cs.AI

发布日期: 2025-03-26 (更新: 2025-08-26)

备注: CVPR 2025 Camera-ready


💡 一句话要点

提出FPET,通过token冗余缩减加速参数高效微调并降低计算开销。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 token冗余缩减 推理加速 计算效率 自注意力机制

📋 核心要点

  1. 现有参数高效微调方法虽然节省了存储和传输成本,但推理速度受限于大型骨干模型,且引入的额外模块增加了计算开销。
  2. FPET的核心思想是引入一个token冗余缩减模块,该模块通过学习token之间的相似性并合并冗余token来减少计算量。
  3. 实验结果表明,FPET在保持与现有PET方法相当性能的同时,实现了更快的推理速度和更高的内存效率。

📝 摘要(中文)

参数高效微调(PET)旨在通过学习少量参数将预训练基础模型迁移到下游任务。与更新整个模型的传统微调相比,PET显著降低了每个任务的存储和传输成本,而无需考虑指数增长的预训练模型容量。然而,大多数PET方法继承了大型骨干模型的推理延迟,并且通常由于额外的模块(例如,适配器)而引入额外的计算开销,限制了其在计算密集型应用中的实用性。在本文中,我们提出了一种更快的参数高效微调(FPET),这是一种新颖的方法,可在保持高存储效率的同时提高推理速度和训练效率。具体来说,我们引入了一个专为PET精心设计的即插即用token冗余缩减模块。该模块使用适配器从自注意力层细化token,以学习token之间准确的相似性,并通过完全可微的token合并策略来切断token,该策略使用直接估计器来实现最佳token缩减。实验结果表明,我们的FPET实现了比预训练骨干网络更快的推理速度和更高的内存效率,同时保持了与最先进的PET方法相当的竞争性能。

🔬 方法详解

问题定义:现有参数高效微调(PET)方法虽然减少了参数量,降低了存储和传输成本,但由于继承了大型预训练模型的推理延迟,并且引入了额外的适配器等模块,导致计算开销增加,限制了其在计算密集型任务中的应用。因此,如何在保持参数高效性的同时,降低推理延迟和计算开销是本文要解决的问题。

核心思路:本文的核心思路是通过减少token的数量来降低计算复杂度。具体来说,通过学习token之间的相似性,识别并合并冗余的token,从而减少自注意力层的计算量,进而加速推理过程。这种方法旨在在不显著损失模型性能的前提下,减少计算开销。

技术框架:FPET主要包含一个即插即用的token冗余缩减模块,该模块被插入到自注意力层中。整体流程如下:1. 输入token序列经过自注意力层。2. token冗余缩减模块使用适配器学习token之间的相似性。3. 使用一个完全可微的token合并策略,通过直接估计器(Straight-Through Estimator)选择并合并冗余token。4. 输出缩减后的token序列,用于后续的计算。

关键创新:FPET的关键创新在于提出了一个专为PET设计的token冗余缩减模块,该模块能够以可微的方式学习token之间的相似性并进行token合并。与传统的token缩减方法不同,FPET使用适配器来学习token之间的细粒度关系,并使用直接估计器来保证token合并过程的可微性,从而实现端到端的优化。

关键设计:token冗余缩减模块的关键设计包括:1. 使用适配器学习token之间的相似性,适配器的具体结构未知。2. 使用完全可微的token合并策略,该策略基于直接估计器,具体实现细节未知。3. 损失函数的设计目标是平衡token缩减率和模型性能,具体形式未知。参数设置方面,需要确定适配器的维度、token缩减率等超参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FPET在保持与最先进的PET方法相当的性能水平下,实现了更快的推理速度和更高的内存效率。具体性能提升数据未知,但强调了FPET在速度和内存效率方面的优势,使其在资源受限的环境中更具吸引力。与预训练骨干网络相比,FPET也展现出了更优的性能。

🎯 应用场景

FPET具有广泛的应用前景,尤其适用于计算资源受限的场景,例如移动设备上的自然语言处理、边缘计算环境下的视觉任务等。通过降低推理延迟和计算开销,FPET可以使大型预训练模型在这些场景中更高效地部署和应用,从而推动人工智能技术在实际应用中的普及。

📄 摘要(原文)

Parameter-efficient tuning (PET) aims to transfer pre-trained foundation models to downstream tasks by learning a small number of parameters. Compared to traditional fine-tuning, which updates the entire model, PET significantly reduces storage and transfer costs for each task regardless of exponentially increasing pre-trained model capacity. However, most PET methods inherit the inference latency of their large backbone models and often introduce additional computational overhead due to additional modules (e.g. adapters), limiting their practicality for compute-intensive applications. In this paper, we propose Faster Parameter-Efficient Tuning (FPET), a novel approach that enhances inference speed and training efficiency while maintaining high storage efficiency. Specifically, we introduce a plug-and-play token redundancy reduction module delicately designed for PET. This module refines tokens from the self-attention layer using an adapter to learn the accurate similarity between tokens and cuts off the tokens through a fully-differentiable token merging strategy, which uses a straight-through estimator for optimal token reduction. Experimental results prove that our FPET achieves faster inference and higher memory efficiency than the pre-trained backbone while keeping competitive performance on par with state-of-the-art PET methods.