Robust Weight Imprinting: Insights from Neural Collapse and Proxy-Based Aggregation

📄 arXiv: 2503.14572v3 📥 PDF

作者: Justus Westerhoff, Golzar Atefi, Mario Koddenbrock, Alexei Figueroa, Alexander Löser, Erik Rodner, Felix A. Gers

分类: cs.LG, cs.AI

发布日期: 2025-03-18 (更新: 2025-12-05)

期刊: Transactions on Machine Learning Research (2025)

🔗 代码/项目: GITHUB


💡 一句话要点

提出IMPRINT框架,通过神经崩塌现象指导的代理聚类,提升迁移学习中的权重印刻性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 迁移学习 权重印刻 神经崩塌 代理聚类 特征表示

📋 核心要点

  1. 现有印刻方法在概念上存在差异,缺乏系统性的分析和比较,限制了其性能提升。
  2. 提出IMPRINT框架,包含生成、归一化和聚合三个关键步骤,用于分析和改进印刻方法。
  3. 通过神经崩塌现象指导的代理聚类,提出的新印刻变体在迁移学习任务上取得了4%的性能提升。

📝 摘要(中文)

本文提出了一种名为IMPRINT的通用框架,用于系统性地研究权重印刻方法,这是一种高效的迁移学习方法,避免了参数优化。该框架包含三个主要组成部分:生成、归一化和聚合。通过这个框架,我们对现有方法进行了深入的分析和比较。研究结果表明,在生成步骤中使用多个代理来表示新数据是有益的,并且适当的归一化非常重要。在广泛的分析基础上,我们的框架使我们能够提出一种新的印刻变体,在迁移学习任务上优于以前的工作4%。这种变体通过受神经崩塌现象启发的聚类来确定代理,这是我们首次建立的联系。我们公开了代码。

🔬 方法详解

问题定义:论文旨在解决迁移学习中,如何更有效地利用预训练模型适应新任务的问题。现有的印刻方法虽然高效,但缺乏统一的理论框架,导致不同方法之间的优劣难以评估,且性能提升受限。这些方法通常依赖于单一代理来表示新类别的数据,可能无法充分捕捉数据的多样性,并且忽略了归一化步骤的重要性。

核心思路:论文的核心思路是将印刻方法分解为生成、归一化和聚合三个关键步骤,并在此基础上进行改进。通过引入多个代理来表示新类别的数据,并采用合适的归一化方法,可以更准确地捕捉数据的特征,从而提高迁移学习的性能。此外,论文还首次将神经崩塌现象与印刻方法联系起来,利用神经崩塌的特性来指导代理的选择。

技术框架:IMPRINT框架包含以下三个主要步骤: 1. 生成 (Generation):使用预训练模型提取新类别数据的特征,并生成代理向量。论文提出使用聚类方法生成多个代理,每个代理代表一个子簇的特征。 2. 归一化 (Normalization):对生成的代理向量进行归一化处理,以消除特征尺度的影响。论文分析了不同归一化方法的效果,并推荐使用合适的归一化策略。 3. 聚合 (Aggregation):将归一化后的代理向量聚合为新类别的权重向量。常用的聚合方法包括平均和加权平均。

关键创新:论文最重要的技术创新点在于: 1. 提出了IMPRINT框架,为分析和改进印刻方法提供了一个统一的视角。 2. 首次将神经崩塌现象与印刻方法联系起来,利用神经崩塌的特性来指导代理的选择。 3. 提出了基于聚类的多代理生成方法,可以更准确地捕捉数据的特征。

关键设计: 1. 代理生成:使用k-means聚类算法将新类别的数据特征聚成多个簇,每个簇的中心作为代理向量。 2. 归一化:采用L2归一化对代理向量进行归一化处理。 3. 损失函数:使用交叉熵损失函数进行训练。 4. 聚类数量k:通过实验确定最佳的聚类数量k,以平衡代理向量的代表性和计算复杂度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的IMPRINT变体在多个迁移学习任务上取得了显著的性能提升,相比之前的印刻方法,性能提升了4%。该方法在保持高效性的同时,提高了迁移学习的准确性,证明了神经崩塌现象指导的代理聚类方法的有效性。

🎯 应用场景

该研究成果可应用于各种需要快速迁移学习的场景,例如:图像分类、目标检测、自然语言处理等。特别是在资源受限的环境下,该方法无需进行大规模的参数优化,即可快速适应新任务,具有重要的实际应用价值。未来,该方法可以进一步扩展到更复杂的任务和模型中,例如:零样本学习、小样本学习等。

📄 摘要(原文)

The capacity of foundation models allows for their application to new, unseen tasks. The adaptation to such tasks is called transfer learning. An efficient transfer learning method that circumvents parameter optimization is imprinting. The conceptual differences between studies on imprinting form the basis of our systematic investigation. In this work, we propose the general \texttt{IMPRINT} framework, identifying three main components: generation, normalization, and aggregation. Through the lens of this framework, we conduct an in-depth analysis and a comparison of the existing methods. Our findings reveal the benefits of representing novel data with multiple proxies in the generation step and show the importance of proper normalization. Beyond an extensive analytical grounding, our framework enables us to propose a novel variant of imprinting which outperforms previous work on transfer learning tasks by 4\%. This variant determines proxies through clustering motivated by the neural collapse phenomenon -- a connection that we draw for the first time. We publicly release our code at https://github.com/DATEXIS/IMPRINT.