H2Tune: Federated Foundation Model Fine-Tuning with Hybrid Heterogeneity

📄 arXiv: 2507.22633v2 📥 PDF

作者: Wei Guo, Siyuan Lu, Yiqi Tong, Zhaojun Hu, Fuzhen Zhuang, Xiao Zhang, Tao Fan, Jin Dong

分类: cs.LG, cs.AI

发布日期: 2025-07-30 (更新: 2025-07-31)


💡 一句话要点

H2Tune:针对模型架构和任务双重异构的联邦基础模型微调框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 基础模型 异构学习 模型对齐 知识解耦

📋 核心要点

  1. 现有联邦微调方法难以应对客户端模型架构和任务的双重异构性,导致知识传递受阻。
  2. H2Tune通过稀疏三矩阵分解、关系引导层对齐和交替知识解耦,实现异构场景下的有效知识共享。
  3. 实验结果表明,H2Tune在准确率上显著优于现有方法,最高提升达15.4%。

📝 摘要(中文)

本文提出了一种针对混合异构联邦微调(HHFFT)场景的联邦基础模型微调框架H2Tune。HHFFT与现有的联邦微调(FFT)方法不同,它面临着模型架构和下游任务的双重异构性。这种混合异构性带来了两个主要挑战:1) 异构矩阵聚合,由于客户端根据任务需求和资源限制采用不同的基础模型,导致LoRA参数聚合期间出现维度不匹配;2) 多任务知识干扰,本地共享参数包含任务共享和任务特定知识,无法保证只有任务共享知识在客户端之间传递。为了解决这些挑战,H2Tune包含三个关键组件:(i) 稀疏化的三矩阵分解,通过构建秩一致的中间矩阵来对齐客户端之间的隐藏维度,并根据客户端资源进行自适应稀疏化;(ii) 关系引导的矩阵层对齐,用于处理异构层结构和表示能力;(iii) 交替任务-知识解耦机制,通过交替优化来解耦本地模型参数的共享和特定知识。理论分析证明了O(1/√T)的收敛速度。大量实验表明,与最先进的基线方法相比,我们的方法实现了高达15.4%的准确率提升。代码已开源。

🔬 方法详解

问题定义:论文旨在解决混合异构联邦微调(HHFFT)场景下的基础模型微调问题。现有联邦微调方法在客户端模型架构和下游任务存在双重异构性时表现不佳,主要痛点在于异构矩阵聚合导致的维度不匹配,以及多任务知识干扰导致的知识传递偏差。

核心思路:论文的核心思路是通过解耦任务共享和任务特定知识,并对齐异构模型结构,从而实现有效的知识迁移。具体而言,通过三矩阵分解对齐隐藏层维度,通过关系引导对齐异构层结构,并通过交替优化解耦任务相关知识。

技术框架:H2Tune框架包含三个主要模块:1) 稀疏化的三矩阵分解模块,用于对齐客户端之间的隐藏维度;2) 关系引导的矩阵层对齐模块,用于处理异构层结构和表示能力;3) 交替任务-知识解耦机制模块,用于解耦本地模型参数的共享和特定知识。整体流程是先进行模型对齐,然后进行知识解耦和联邦学习。

关键创新:论文的关键创新在于提出了一个完整的框架来解决混合异构联邦微调问题,包括针对异构矩阵聚合和多任务知识干扰的创新性解决方案。与现有方法相比,H2Tune能够更有效地处理客户端之间的异构性,从而实现更好的联邦学习性能。

关键设计:在稀疏三矩阵分解中,采用了自适应稀疏化策略,根据客户端资源调整稀疏度。在关系引导的矩阵层对齐中,利用层之间的关系来指导对齐过程。在交替任务-知识解耦机制中,设计了特定的损失函数来区分和解耦任务共享和任务特定知识。理论分析证明了该方法的收敛性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,H2Tune在多个数据集上显著优于现有联邦学习方法。例如,在某个数据集上,H2Tune的准确率比最先进的基线方法提高了15.4%。此外,实验还验证了H2Tune在不同程度的异构性下的鲁棒性,证明了其在实际应用中的潜力。

🎯 应用场景

H2Tune可应用于各种涉及数据隐私和异构性的联邦学习场景,例如:医疗健康领域,不同医院使用不同模型处理不同疾病数据;金融领域,不同银行使用不同模型进行风险评估;自动驾驶领域,不同车辆使用不同模型处理不同环境数据。该研究有助于推动联邦学习在实际应用中的落地,并促进跨机构、跨设备的数据共享和模型训练。

📄 摘要(原文)

Different from existing federated fine-tuning (FFT) methods for foundation models, hybrid heterogeneous federated fine-tuning (HHFFT) is an under-explored scenario where clients exhibit double heterogeneity in model architectures and downstream tasks. This hybrid heterogeneity introduces two significant challenges: 1) heterogeneous matrix aggregation, where clients adopt different large-scale foundation models based on their task requirements and resource limitations, leading to dimensional mismatches during LoRA parameter aggregation; and 2) multi-task knowledge interference, where local shared parameters, trained with both task-shared and task-specific knowledge, cannot ensure only task-shared knowledge is transferred between clients. To address these challenges, we propose H2Tune, a federated foundation model fine-tuning with hybrid heterogeneity. Our framework H2Tune consists of three key components: (i) sparsified triple matrix decomposition to align hidden dimensions across clients through constructing rank-consistent middle matrices, with adaptive sparsification based on client resources; (ii) relation-guided matrix layer alignment to handle heterogeneous layer structures and representation capabilities; and (iii) alternating task-knowledge disentanglement mechanism to decouple shared and specific knowledge of local model parameters through alternating optimization. Theoretical analysis proves a convergence rate of O(1/\sqrt{T}). Extensive experiments show our method achieves up to 15.4% accuracy improvement compared to state-of-the-art baselines. Our code is available at https://anonymous.4open.science/r/H2Tune-1407.