Update Your Transformer to the Latest Release: Re-Basin of Task Vectors
作者: Filippo Rinaldi, Giacomo Capitani, Lorenzo Bonicelli, Donato Crisostomi, Federico Bolelli, Elisa Ficarra, Emanuele Rodolà, Simone Calderara, Angelo Porrello
分类: cs.LG
发布日期: 2025-05-28
备注: Accepted at ICML 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出TransFusion,通过重构任务向量实现Transformer模型微调知识的无数据迁移。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Transformer 模型重构 知识迁移 无数据学习 微调 谱聚类 注意力机制
📋 核心要点
- 现有微调模型在基础模型更新后失效,需重新训练,成本高昂且浪费资源。
- 论文提出TransFusion,通过权重置换重构任务向量,实现微调知识的无数据迁移。
- 实验表明,TransFusion能将微调知识无缝迁移到新预训练模型,无需训练或数据。
📝 摘要(中文)
基础模型是众多通过微调开发的专用模型的基石。然而,当底层预训练模型更新或重新训练时(例如,在更大、更精选的数据集上),微调后的模型会过时,失去其效用并需要重新训练。这就提出了一个问题:是否可以将微调迁移到模型的新版本?在这项工作中,我们研究了如何在无需重新训练的情况下,以无数据的方式将微调迁移到新的检查点。为此,我们借鉴了模型重构的原理,并提供了一种基于权重置换的方案,以重构对原始基础模型所做的修改,通常称为任务向量。特别地,我们的方法针对Transformer模型定制了模型重构,考虑了残差连接和多头注意力层的挑战。具体来说,我们提出了一种基于谱理论的两级方法,首先置换注意力头,然后调整选定头对中的参数。通过在视觉和文本任务上的大量实验,我们实现了微调知识到新的预训练骨干网络的无缝迁移,而无需依赖任何训练步骤或数据点。
🔬 方法详解
问题定义:论文旨在解决Transformer模型在预训练骨干网络更新后,如何将已有的微调知识迁移到新模型的问题。现有方法通常需要重新进行微调,这耗时耗力,且需要大量数据。因此,如何在不重新训练的情况下,将微调后的模型知识迁移到新的预训练模型是一个重要的挑战。
核心思路:论文的核心思路是利用模型重构(Re-basin)的思想,将微调过程视为对原始预训练模型参数的修改,即任务向量。通过对新预训练模型的参数进行特定的置换,使得新模型能够理解并应用这个任务向量,从而实现知识的迁移。这种方法避免了重新训练,并且不需要任何训练数据。
技术框架:TransFusion方法主要包含两个阶段:1) 注意力头置换:利用谱理论对注意力头进行置换,使得新模型中的注意力头与原始模型中的注意力头在功能上尽可能匹配。2) 头内参数调整:在选定的注意力头对中,进一步调整参数,以优化知识迁移的效果。整体流程是先进行全局的注意力头置换,再进行局部的参数调整,从而实现微调知识的有效迁移。
关键创新:该方法最重要的创新在于将模型重构的思想应用于Transformer模型的微调知识迁移,并针对Transformer模型的特殊结构(如残差连接和多头注意力)设计了特定的置换策略。通过谱理论指导的注意力头置换,能够有效地匹配新旧模型中的注意力头,从而实现知识的无缝迁移。
关键设计:在注意力头置换阶段,论文使用谱聚类算法对注意力头的权重矩阵进行聚类,然后根据聚类结果进行置换。在头内参数调整阶段,论文选择具有相似功能的注意力头对,并对这些头对中的参数进行微调。具体的参数设置和损失函数在论文中有详细描述,但此处未提供具体数值。
🖼️ 关键图片
📊 实验亮点
论文在视觉和文本任务上进行了大量实验,证明了TransFusion方法能够将微调知识无缝迁移到新的预训练骨干网络,而无需任何训练步骤或数据点。具体的性能提升数据和对比基线在论文中有详细描述,但此处未提供具体数值。
🎯 应用场景
该研究成果可广泛应用于自然语言处理和计算机视觉领域,特别是在需要频繁更新预训练模型的场景下,例如持续学习、模型版本迭代等。它可以显著降低模型更新的成本,提高模型的可用性和可维护性,加速AI技术的部署和应用。
📄 摘要(原文)
Foundation models serve as the backbone for numerous specialized models developed through fine-tuning. However, when the underlying pretrained model is updated or retrained (e.g., on larger and more curated datasets), the fine-tuned model becomes obsolete, losing its utility and requiring retraining. This raises the question: is it possible to transfer fine-tuning to a new release of the model? In this work, we investigate how to transfer fine-tuning to a new checkpoint without having to re-train, in a data-free manner. To do so, we draw principles from model re-basin and provide a recipe based on weight permutations to re-base the modifications made to the original base model, often called task vector. In particular, our approach tailors model re-basin for Transformer models, taking into account the challenges of residual connections and multi-head attention layers. Specifically, we propose a two-level method rooted in spectral theory, initially permuting the attention heads and subsequently adjusting parameters within select pairs of heads. Through extensive experiments on visual and textual tasks, we achieve the seamless transfer of fine-tuned knowledge to new pre-trained backbones without relying on a single training step or datapoint. Code is available at https://github.com/aimagelab/TransFusion.