F$^3$OCUS -- Federated Finetuning of Vision-Language Foundation Models with Optimal Client Layer Updating Strategy via Multi-objective Meta-Heuristics
作者: Pramit Saha, Felix Wagner, Divyanshu Mishra, Can Peng, Anshul Thakur, David Clifton, Konstantinos Kamnitsas, J. Alison Noble
分类: cs.CV, cs.AI, cs.LG
发布日期: 2024-11-17 (更新: 2025-03-30)
备注: Accepted in CVPR 2025
💡 一句话要点
提出F$^3$OCUS,通过元启发式算法优化联邦学习中视觉-语言模型的参数高效微调。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 联邦学习 视觉-语言模型 参数高效微调 元启发式优化 层选择
📋 核心要点
- 现有联邦学习中视觉-语言模型微调面临资源约束,需要参数高效的方法。
- F$^3$OCUS通过优化层重要性和多样性,实现客户端特定层的选择和高效微调。
- 实验表明,F$^3$OCUS在多个VLM和数据集上表现出色,验证了其有效性。
📝 摘要(中文)
本文提出了一种名为F$^3$OCUS的联邦学习框架,用于在资源受限的客户端设备上高效地微调大型视觉-语言模型(VLM)。该方法考虑了两个关键因素:客户端特定的层重要性得分,用于选择VLM中最重要的层进行微调;以及客户端间层多样性得分,用于鼓励客户端之间选择不同的层,以实现最佳的VLM层选择。论文首先从理论上论证了层级神经切线核的主特征值幅度作为客户端特定层重要性得分的有效性。然后,提出了一种新的层更新策略F$^3$OCUS,该策略通过在服务器上采用无数据的多目标元启发式优化,联合优化层重要性和多样性因素。论文探索了5种不同的元启发式算法,并比较了它们在选择模型层和适配器层以实现参数高效联邦学习(PEFT-FL)方面的有效性。此外,论文还发布了一个新的MedVQA-FL数据集,包含707,962个VQA三元组和9个特定模态的客户端,并利用它来训练和评估所提出的方法。总体而言,论文在6个视觉-语言联邦学习任务设置中进行了超过10,000次客户端级别的实验,涉及58个医学图像数据集和4种不同大小的VLM架构,以证明该方法的有效性。
🔬 方法详解
问题定义:现有的联邦学习方法在微调大型视觉-语言模型时,由于客户端资源有限,难以进行全参数微调。参数高效微调(PEFT)策略虽然可以减少参数量,但如何选择合适的层进行微调,以及如何保证客户端之间选择的层具有多样性,仍然是一个挑战。现有方法通常采用启发式或随机选择,缺乏理论依据和优化策略。
核心思路:论文的核心思路是通过多目标优化,同时考虑客户端特定层的“重要性”和客户端之间的“多样性”。重要性确保选择对特定客户端任务最相关的层,多样性则避免所有客户端都集中微调相同的层,从而提高模型的泛化能力。这种联合优化旨在找到一个平衡点,使得每个客户端都能有效地利用其有限的计算资源,同时保证整个联邦模型的性能。
技术框架:F$^3$OCUS框架主要包含以下几个阶段:1) 层重要性评估:利用层级神经切线核(NTK)的主特征值幅度来评估每一层对于特定客户端任务的重要性。2) 层多样性评估:计算客户端之间层选择的多样性得分,鼓励客户端选择不同的层。3) 多目标优化:在服务器端,使用元启发式算法(如遗传算法、粒子群优化等)联合优化层重要性和多样性得分,得到每个客户端的最佳层选择策略。4) 联邦微调:客户端根据服务器端确定的层选择策略,进行参数高效的微调。5) 模型聚合:服务器端聚合客户端微调后的模型参数。
关键创新:该方法最重要的创新点在于:1) 提出了基于NTK主特征值的层重要性评估方法,为层选择提供了理论依据。2) 引入了层多样性概念,并将其与层重要性联合优化,提高了模型的泛化能力。3) 将多目标元启发式优化应用于联邦学习中的层选择问题,提供了一种数据无关的优化策略。
关键设计:在层重要性评估方面,使用层级NTK的主特征值幅度作为指标。在层多样性评估方面,可以使用各种距离度量或信息论指标。在多目标优化方面,可以选择不同的元启发式算法,如NSGA-II、MOEA/D等,并根据具体任务调整算法的参数。损失函数的设计需要同时考虑层重要性和多样性,例如可以使用加权和的方式将两个目标函数结合起来。
🖼️ 关键图片
📊 实验亮点
在MedVQA-FL数据集上,F$^3$OCUS在多个VLM架构上取得了显著的性能提升。例如,在某些设置下,相比于基线方法,F$^3$OCUS的VQA准确率提高了5%以上。此外,实验还表明,不同的元启发式算法对性能有一定影响,但F$^3$OCUS整体上优于传统的层选择策略。
🎯 应用场景
F$^3$OCUS可应用于医疗影像分析、自然语言处理等领域,尤其适用于数据分布异构、客户端资源受限的联邦学习场景。例如,在医疗领域,不同医院的影像数据可能具有不同的特征,利用F$^3$OCUS可以针对每个医院的数据特点进行个性化微调,提高诊断准确率,同时保护患者隐私。
📄 摘要(原文)
Effective training of large Vision-Language Models (VLMs) on resource-constrained client devices in Federated Learning (FL) requires the usage of parameter-efficient fine-tuning (PEFT) strategies. To this end, we demonstrate the impact of two factors \textit{viz.}, client-specific layer importance score that selects the most important VLM layers for fine-tuning and inter-client layer diversity score that encourages diverse layer selection across clients for optimal VLM layer selection. We first theoretically motivate and leverage the principal eigenvalue magnitude of layerwise Neural Tangent Kernels and show its effectiveness as client-specific layer importance score. Next, we propose a novel layer updating strategy dubbed F$^3$OCUS that jointly optimizes the layer importance and diversity factors by employing a data-free, multi-objective, meta-heuristic optimization on the server. We explore 5 different meta-heuristic algorithms and compare their effectiveness for selecting model layers and adapter layers towards PEFT-FL. Furthermore, we release a new MedVQA-FL dataset involving overall 707,962 VQA triplets and 9 modality-specific clients and utilize it to train and evaluate our method. Overall, we conduct more than 10,000 client-level experiments on 6 Vision-Language FL task settings involving 58 medical image datasets and 4 different VLM architectures of varying sizes to demonstrate the effectiveness of the proposed method.