TOAST: Transformer Optimization using Adaptive and Simple Transformations
作者: Irene Cannistraci, Simone Antonelli, Emanuele Palumbo, Thomas M. Sutter, Emanuele Rodolà, Bastian Rieck, Julia E. Vogt
分类: cs.LG, cs.AI
发布日期: 2024-10-07 (更新: 2025-10-06)
备注: 24 pages, 15 figures, 12 tables
💡 一句话要点
TOAST:利用自适应简单变换优化Transformer,无需额外训练。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Transformer优化 模型压缩 知识蒸馏 视觉Transformer 自适应变换
📋 核心要点
- 现有Transformer模型体积庞大,计算成本高昂,且现有优化方法通常需要额外的训练或微调,限制了其应用。
- TOAST框架通过识别Transformer内部的冗余,使用轻量级的闭式映射(如线性变换或恒等变换)来近似整个Transformer块。
- 实验表明,TOAST在保持甚至提高下游任务性能的同时,显著减少了参数量和计算量,适用于ViT、DINOv2、DeiT等模型。
📝 摘要(中文)
基础模型在各种任务中都取得了最先进的性能,但其规模和计算需求引起了人们对可访问性和可持续性的担忧。现有的效率方法通常需要额外的再训练或微调,限制了它们的实用性。最近的研究表明,深度神经网络表现出内部表征相似性。虽然不同模型之间的这种相似性已被用于模型缝合和合并等技术,但网络内部的冗余作为提高效率的来源仍未得到充分探索。在本文中,我们介绍了一种名为TOAST(Transformer Optimization using Adaptive and Simple Transformations)的框架,该框架利用这些冗余,用轻量级的闭式映射(如线性变换甚至恒等变换)来近似整个Transformer块,而无需任何额外的训练。在最先进的预训练视觉模型(例如,ViT、DINOv2、DeiT)和从MNIST到ImageNet-1k的数据集上,TOAST减少了参数和计算量,同时保持甚至在某些情况下提高了下游性能。这些结果表明,大部分Transformer深度可以被简单的函数所取代,为高效的基础模型开辟了一个新的视角。
🔬 方法详解
问题定义:论文旨在解决Transformer模型计算成本高昂的问题,现有模型压缩方法通常需要额外的训练或微调,增加了部署难度和计算开销。论文关注Transformer内部的冗余性,希望在不进行额外训练的情况下,降低模型的计算复杂度。
核心思路:论文的核心思路是利用Transformer内部的冗余性,通过自适应地选择简单的变换(如线性变换或恒等变换)来近似整个Transformer块。这种方法避免了复杂的训练过程,可以直接应用于预训练模型,从而实现高效的模型压缩。
技术框架:TOAST框架主要包含以下几个步骤:1) 分析Transformer块的输入和输出之间的关系;2) 根据分析结果,自适应地选择合适的变换(线性变换或恒等变换)来近似该Transformer块;3) 将原始Transformer块替换为选定的变换。整个过程无需额外的训练。
关键创新:TOAST的关键创新在于它能够在不进行额外训练的情况下,利用Transformer内部的冗余性进行模型压缩。与现有的模型压缩方法相比,TOAST更加简单高效,可以直接应用于预训练模型。此外,TOAST采用自适应的方式选择变换,能够更好地适应不同的Transformer块,从而获得更好的压缩效果。
关键设计:TOAST的关键设计在于如何选择合适的变换来近似Transformer块。论文采用了一种基于奇异值分解(SVD)的方法来分析Transformer块的输入和输出之间的关系,并根据SVD的结果来选择线性变换或恒等变换。具体来说,如果Transformer块的输入和输出之间的线性相关性很高,则选择线性变换;否则,选择恒等变换。这种自适应的选择策略能够有效地利用Transformer内部的冗余性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TOAST在多个数据集(包括MNIST和ImageNet-1k)和多个视觉模型(包括ViT、DINOv2和DeiT)上都取得了显著的压缩效果。例如,在ImageNet-1k数据集上,TOAST可以在保持甚至提高模型性能的同时,显著减少模型的参数量和计算量。具体来说,TOAST可以将ViT模型的参数量减少高达50%,同时保持甚至略微提高模型的准确率。
🎯 应用场景
TOAST框架可广泛应用于各种基于Transformer的视觉模型,例如图像分类、目标检测、图像分割等。通过降低模型的计算复杂度和参数量,TOAST可以使这些模型更容易部署在资源受限的设备上,例如移动设备和嵌入式系统。此外,TOAST还可以用于加速模型的推理速度,提高模型的效率。
📄 摘要(原文)
Foundation models achieve State-of-the-Art (SOTA) performance across different tasks, but their size and computational demands raise concerns about accessibility and sustainability. Existing efficiency methods often require additional retraining or fine-tuning, limiting their practicality. Recent findings suggest that deep neural networks exhibit internal representation similarities. While such similarities across different models have been exploited for enabling techniques such as model stitching and merging, intra-network redundancy remains underexplored as a source for efficiency gains. In this paper, we introduce TOAST (Transformer Optimization using Adaptive and Simple Transformations), a framework that exploits these redundancies to approximate entire transformer blocks with lightweight closed-form mappings, such as linear transformation or even the identity, without any additional training. Across SOTA pretrained vision models (e.g., ViT, DINOv2, DeiT) and datasets ranging from MNIST to ImageNet-1k, TOAST reduces parameters and computation while preserving, and in some cases improving, downstream performance. These results show that large portions of transformer depth can be replaced by trivial functions, opening a new perspective on efficient foundation models.