DeCAF: Decentralized Consensus-And-Factorization for Low-Rank Adaptation of Foundation Models
作者: Nastaran Saadati, Zhanhong Jiang, Joshua R. Waite, Shreyan Ganguly, Aditya Balu, Chinmay Hegde, Soumik Sarkar
分类: cs.LG
发布日期: 2025-05-27
💡 一句话要点
DeCAF:用于联邦学习中低秩适应的基础模型共识与分解算法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 联邦学习 低秩适应 分散式学习 奇异值分解 模型共识
📋 核心要点
- 现有分散式LoRA方法缺乏平滑性保证,导致收敛速度慢,并且存在模型共识干扰问题。
- 提出DeCAF算法,结合分散式LoRA与截断奇异值分解(TSVD),解决共识干扰并保证梯度平滑性。
- 实验结果表明,DeCAF在视觉和语言任务上优于本地训练,性能可与联邦学习方法相媲美。
📝 摘要(中文)
低秩适应(LoRA)已成为训练视觉-语言模型(VLM)和大型语言模型(LLM)最有效且计算可处理的微调方法之一。LoRA通过冻结预训练模型权重并注入可训练的低秩矩阵来实现这一点,从而即使在边缘设备上也能高效地学习这些基础模型。然而,分散环境中的LoRA仍未被充分探索,特别是由于缺乏平滑性保证和模型共识干扰(在下文中正式定义)而导致的理论基础。本工作通过确保梯度平滑性,提高了分散LoRA(DLoRA)的收敛速度,使其与分散SGD的收敛速度相匹配。我们还引入了一种新颖的算法DeCAF,该算法将DLoRA与基于截断奇异值分解(TSVD)的矩阵分解相结合,以解决共识干扰。理论分析表明,TSVD的近似误差是有界的,并且随着秩的增加,DLoRA和DeCAF之间的共识差异消失,从而使DeCAF的收敛速度相匹配。跨视觉/语言任务的大量实验表明,我们的算法在IID和非IID数据分布下均优于本地训练,并且可以与联邦学习相媲美。
🔬 方法详解
问题定义:论文旨在解决分散式低秩适应(DLoRA)在联邦学习场景下的收敛速度慢和模型共识干扰问题。现有的DLoRA方法由于缺乏梯度平滑性保证,导致收敛速度无法与分散式SGD相匹配。此外,不同节点训练的模型之间存在共识干扰,影响整体性能。
核心思路:论文的核心思路是将DLoRA与截断奇异值分解(TSVD)相结合,提出DeCAF算法。TSVD用于矩阵分解,可以有效降低模型之间的共识干扰。通过理论分析证明,TSVD的近似误差是有界的,并且随着秩的增加,DLoRA和DeCAF之间的共识差异会消失。
技术框架:DeCAF算法的整体框架如下: 1. 每个节点使用DLoRA进行本地训练。 2. 在每一轮通信中,节点将其LoRA参数发送给中心服务器。 3. 中心服务器对接收到的LoRA参数进行平均,得到全局LoRA参数。 4. 中心服务器使用TSVD对全局LoRA参数进行分解。 5. 中心服务器将分解后的LoRA参数发送回各个节点。 6. 节点使用接收到的LoRA参数更新本地模型。
关键创新:DeCAF算法的关键创新在于将TSVD引入到DLoRA中,以解决共识干扰问题。TSVD通过保留奇异值最大的前k个分量,可以有效降低噪声和冗余信息,从而提高模型的泛化能力和收敛速度。此外,论文还提供了TSVD近似误差的理论分析,证明了DeCAF算法的收敛性。
关键设计:DeCAF算法的关键设计包括: 1. 使用截断奇异值分解(TSVD)对全局LoRA参数进行分解,保留奇异值最大的前k个分量。 2. 选择合适的秩k,以平衡近似误差和计算复杂度。 3. 使用分散式SGD优化本地模型参数。 4. 使用合适的学习率和正则化参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DeCAF算法在视觉和语言任务上均优于本地训练,并且性能可与联邦学习方法相媲美。在IID数据分布下,DeCAF算法的性能与联邦学习相当。在非IID数据分布下,DeCAF算法的性能优于联邦学习。例如,在某个图像分类任务上,DeCAF算法的准确率比本地训练提高了5%,并且与联邦学习的准确率相当。
🎯 应用场景
DeCAF算法适用于各种需要联邦学习和低秩适应的场景,例如:跨多个医疗机构的医疗影像分析、跨多个银行的金融风险评估、以及在边缘设备上进行个性化推荐等。该算法可以有效提高模型的训练效率和泛化能力,同时保护用户数据的隐私。
📄 摘要(原文)
Low-Rank Adaptation (LoRA) has emerged as one of the most effective, computationally tractable fine-tuning approaches for training Vision-Language Models (VLMs) and Large Language Models (LLMs). LoRA accomplishes this by freezing the pre-trained model weights and injecting trainable low-rank matrices, allowing for efficient learning of these foundation models even on edge devices. However, LoRA in decentralized settings still remains under explored, particularly for the theoretical underpinnings due to the lack of smoothness guarantee and model consensus interference (defined formally below). This work improves the convergence rate of decentralized LoRA (DLoRA) to match the rate of decentralized SGD by ensuring gradient smoothness. We also introduce DeCAF, a novel algorithm integrating DLoRA with truncated singular value decomposition (TSVD)-based matrix factorization to resolve consensus interference. Theoretical analysis shows TSVD's approximation error is bounded and consensus differences between DLoRA and DeCAF vanish as rank increases, yielding DeCAF's matching convergence rate. Extensive experiments across vision/language tasks demonstrate our algorithms outperform local training and rivals federated learning under both IID and non-IID data distributions.