Auto-FlexSwitch: Efficient Dynamic Model Merging via Learnable Task Vector Compression

📄 arXiv: 2604.28109v1 📥 PDF

作者: Junqi Gao, Dazhi Zhang, Zhichang Guo, Biqing Qi, Yi Ran, Wangmeng Zuo

分类: cs.LG

发布日期: 2026-04-30


💡 一句话要点

提出Auto-FlexSwitch,通过可学习的任务向量压缩实现高效的动态模型融合

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 模型融合 动态模型 任务向量压缩 多任务学习 模型压缩

📋 核心要点

  1. 动态模型融合在多任务学习中表现出色,但为每个任务存储独立参数导致存储开销巨大。
  2. 论文提出Auto-FlexSwitch,通过可学习的任务向量压缩,在保证性能的同时显著降低存储需求。
  3. Auto-FlexSwitch结合了特征相似性检索、可学习压缩策略和KNN推理,实现了高效的任务向量压缩。

📝 摘要(中文)

模型融合作为一种有效的多任务适应方法,通过整合多个特定任务模型的知识而备受关注。在现有方法中,动态融合通过在推理时灵活地组合特定任务的参数,从而减轻了由跨任务冲突的参数更新引起的性能下降,从而保持了高性能。然而,这些方法需要为每个任务存储独立的参数,导致了过高的存储开销。为了解决这个问题,我们首先通过实验证明,微调的权重增量(称为任务向量)表现出脉冲式的激活模式,并且对低比特表示具有很强的鲁棒性。受此启发,我们提出了T-Switch,它将任务向量分解为三个紧凑的组件:二元稀疏掩码、符号向量和标量缩放因子,从而以高压缩率实现高保真度的近似。然后,我们引入了Auto-Switch,一种无需训练的融合方案,它通过特征相似性检索自动组合任务向量。在此基础上,我们开发了Auto-Switch,一种无需训练的融合方案,它通过特征相似性检索自动组装任务向量。此外,为了将任务向量的稀疏化和量化从静态规则转变为自适应学习,我们提出了FlexSwitch,一个可学习的框架,它通过可学习的门控稀疏化(LGS)和比特宽度自适应选择(BAS)联合优化每个模型单元的压缩策略,同时采用稀疏度感知存储策略(SASS)来选择最佳的存储编码结构。最后,通过结合K近邻(KNN)推理方案和可学习的低秩度量,我们提出了一种动态模型融合方法Auto-FlexSwitch,该方法支持高效的任务向量压缩。

🔬 方法详解

问题定义:动态模型融合旨在结合多个任务特定模型的知识,但现有方法需要为每个任务存储独立的参数,导致存储开销巨大,限制了其在资源受限场景下的应用。因此,如何高效地压缩任务特定参数,同时保持模型性能,是本文要解决的核心问题。

核心思路:论文的核心思路是利用任务向量(fine-tuned weight increments)的特性,即具有脉冲式的激活模式和对低比特表示的鲁棒性,通过稀疏化和量化来压缩任务向量。此外,通过学习自适应的压缩策略,可以进一步提高压缩效率和模型性能。

技术框架:Auto-FlexSwitch的整体框架包括以下几个主要模块:1) T-Switch:将任务向量分解为二元稀疏掩码、符号向量和标量缩放因子,实现初步压缩。2) Auto-Switch:通过特征相似性检索自动组合任务向量,无需训练。3) FlexSwitch:通过可学习的门控稀疏化(LGS)和比特宽度自适应选择(BAS)联合优化每个模型单元的压缩策略。4) Sparsity-Aware Storage Strategy (SASS):选择最佳的存储编码结构。5) KNN推理:结合K近邻推理和可学习的低秩度量,提高推理效率。

关键创新:最重要的技术创新点在于将任务向量的压缩从静态规则转变为自适应学习。FlexSwitch通过可学习的门控稀疏化(LGS)和比特宽度自适应选择(BAS),针对不同的模型单元学习最佳的压缩策略,从而实现更高的压缩率和更好的模型性能。与现有方法相比,Auto-FlexSwitch能够根据任务的特征自适应地调整压缩策略,更加灵活和高效。

关键设计:1) Learnable Gating Sparsification (LGS):使用门控机制学习每个模型单元的稀疏度,从而自适应地控制任务向量的稀疏程度。2) Bit-width Adaptive Selection (BAS):根据每个模型单元的重要性,自适应地选择合适的比特宽度进行量化。3) Sparsity-Aware Storage Strategy (SASS):根据任务向量的稀疏度,选择最佳的存储编码结构,进一步降低存储开销。4) 可学习的低秩度量:在KNN推理中使用可学习的低秩度量,提高特征相似性检索的准确性和效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了Auto-FlexSwitch的有效性。实验结果表明,Auto-FlexSwitch在保持模型性能的同时,能够显著降低任务向量的存储开销。例如,在XXX数据集上,Auto-FlexSwitch相比于基线方法,可以将存储开销降低XX%,同时性能仅下降YY%。

🎯 应用场景

Auto-FlexSwitch在多任务学习、联邦学习和模型部署等领域具有广泛的应用前景。它可以降低模型存储和传输成本,提高模型推理效率,特别适用于资源受限的边缘设备和移动设备。此外,该方法还可以应用于个性化推荐、智能客服等需要快速适应不同用户需求的场景。

📄 摘要(原文)

Model merging has attracted attention as an effective path toward multi-task adaptation by integrating knowledge from multiple task-specific models. Among existing approaches, dynamic merging mitigates performance degradation caused by conflicting parameter updates across tasks by flexibly combining task-specific parameters at inference time, thereby maintaining high performance. However, these methods require storing independent parameters for each task, resulting in prohibitive storage overhead. To address this issue, we first experimentally demonstrate that the fine-tuned weight increments (referred to as task vectors) exhibit an impulse-like activation pattern and high robustness to low-bit representations. Driven by this insight, we propose T-Switch, which decomposes task vectors into three compact components: a binary sparse mask, a sign vector, and a scalar scaling factor, achieving high-fidelity approximation at high compression ratios. We then introduce Auto-Switch, a training-free merging scheme that automatically composes task vectors via feature similarity retrieval. Building on this, we develop Auto-Switch, a training-free merging scheme that automatically assembles task vectors through feature similarity retrieval. Furthermore, to transform task vector sparsification and quantization from static rules to adaptive learning, we propose FlexSwitch, a learnable framework which jointly optimizes the compression strategy for each model unit via Learnable Gating Sparsification (LGS) and Bit-width Adaptive Selection (BAS), while employing the Sparsity-Aware Storage Strategy (SASS) to select the optimal storage encoding structure. Finally, by incorporating a K-Nearest Neighbor (KNN) inference scheme with a learnable low-rank metric, we present Auto-FlexSwitch, a dynamic model merging approach that supports highly efficient task vector compression.