Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models
作者: Yao Shu, Wenyang Hu, See-Kiong Ng, Bryan Kian Hsiang Low, Fei Richard Yu
分类: cs.LG, cs.AI
发布日期: 2024-09-10 (更新: 2025-06-07)
备注: Published as a conference paper at ICML 2025
🔗 代码/项目: GITHUB
💡 一句话要点
Ferret:面向大规模LLM的联邦全参数调优,兼顾效率与精度
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 联邦学习 大型语言模型 全参数微调 低维投影 共享随机性 通信效率 数据隐私
📋 核心要点
- 现有联邦学习方法在微调大型语言模型时,为降低通信开销通常采用参数高效微调(PEFT),但牺牲了模型精度。
- Ferret通过共享随机性的一阶方法,将本地更新投影到低维空间,降低通信开销,并重建本地更新以实现有效的全局聚合。
- 实验结果表明,Ferret在保持模型精度的同时,显著提高了联邦全参数调优的可扩展性,实现了高计算效率和快速收敛。
📝 摘要(中文)
大型语言模型(LLM)在众多实际应用中变得不可或缺。然而,大规模地微调这些模型,尤其是在数据隐私和通信效率至关重要的联邦环境中,提出了重大挑战。现有方法通常采用参数高效微调(PEFT)来降低通信开销,但这通常以牺牲模型精度为代价。为此,我们提出了Ferret,一种用于LLM的大规模联邦全参数调优方法。Ferret是第一个使用共享随机性的的一阶方法,能够在去中心化数据源上实现可扩展的LLM全参数调优,同时保持有竞争力的模型精度。Ferret通过三个方面实现这一目标:(i)它采用广泛使用的一阶方法进行高效的本地更新;(ii)它将这些更新投影到低维空间,以显著降低通信开销;(iii)它利用共享随机性从这个低维空间重建本地更新,以促进有效的全参数全局聚合,确保快速收敛和有竞争力的最终性能。我们严谨的理论分析和深入的实验表明,Ferret通过实现高计算效率、降低通信开销和快速收敛,同时保持有竞争力的模型精度,显著提高了现有联邦全参数调优方法的可扩展性。我们的实现可在https://github.com/allen4747/Ferret 获得。
🔬 方法详解
问题定义:论文旨在解决联邦学习场景下,大规模语言模型(LLM)的全参数微调问题。现有方法,特别是参数高效微调(PEFT),虽然降低了通信开销,但通常会牺牲模型精度。因此,如何在保证模型精度的前提下,提高联邦学习中LLM全参数微调的可扩展性和效率,是本研究要解决的核心问题。
核心思路:Ferret的核心思路是利用共享随机性的一阶优化方法,在降低通信开销的同时,保持全参数微调的精度。具体来说,Ferret将本地更新投影到低维空间进行通信,然后利用共享随机性在全局聚合时重建这些更新。这种方法既减少了通信量,又避免了PEFT带来的精度损失。
技术框架:Ferret的整体框架包括以下几个主要阶段:1) 本地更新:每个客户端使用一阶优化方法(如SGD或Adam)在本地数据上进行全参数更新。2) 降维投影:客户端将本地更新投影到低维空间,以减少通信开销。3) 全局聚合:服务器接收来自客户端的低维投影,并利用共享随机性重建本地更新,进行全局聚合。4) 模型更新:服务器将聚合后的更新应用于全局模型。
关键创新:Ferret的关键创新在于利用共享随机性进行低维投影和重建。与传统的联邦学习方法不同,Ferret不是直接传输模型参数或梯度,而是传输其低维表示,并通过共享随机性保证重建的准确性。这种方法在通信效率和模型精度之间取得了更好的平衡。
关键设计:Ferret的关键设计包括:1) 低维投影矩阵:选择合适的低维投影矩阵至关重要,需要保证投影后的信息损失尽可能小。2) 共享随机数生成器:所有客户端和服务器共享同一个随机数生成器,以保证重建的一致性。3) 一阶优化器选择:可以使用各种一阶优化器(如SGD、Adam等)进行本地更新,具体选择取决于数据集和模型。
🖼️ 关键图片
📊 实验亮点
Ferret通过低维投影和共享随机性重建,显著降低了通信开销,同时保持了与全参数微调相当的模型精度。实验结果表明,Ferret在多个数据集上优于现有的联邦学习方法,尤其是在大规模LLM的微调任务中,性能提升更为显著。具体的数据指标需要在论文中查找。
🎯 应用场景
Ferret在保护数据隐私的前提下,实现了大规模语言模型的联邦全参数调优,具有广泛的应用前景。例如,在医疗领域,可以利用来自不同医院的电子病历数据训练LLM,辅助医生进行诊断和治疗;在金融领域,可以利用来自不同银行的交易数据训练LLM,进行风险评估和欺诈检测。此外,Ferret还可以应用于个性化推荐、智能客服等领域,提升用户体验。
📄 摘要(原文)
Large Language Models (LLMs) have become indispensable in numerous real-world applications. However, fine-tuning these models at scale, especially in federated settings where data privacy and communication efficiency are critical, presents significant challenges. Existing approaches often resort to parameter-efficient fine-tuning (PEFT) to mitigate communication overhead, but this typically comes at the cost of model accuracy. To this end, we propose federated full-parameter tuning at scale for LLMs (Ferret), the first first-order method with shared randomness to enable scalable full-parameter tuning of LLMs across decentralized data sources while maintaining competitive model accuracy. Ferret accomplishes this through three aspects: (i) it employs widely used first-order methods for efficient local updates; (ii) it projects these updates into a low-dimensional space to considerably reduce communication overhead; and (iii) it reconstructs local updates from this low-dimensional space with shared randomness to facilitate effective full-parameter global aggregation, ensuring fast convergence and competitive final performance. Our rigorous theoretical analyses and insights along with extensive experiments, show that Ferret significantly enhances the scalability of existing federated full-parameter tuning approaches by achieving high computational efficiency, reduced communication overhead, and fast convergence, all while maintaining competitive model accuracy. Our implementation is available at https://github.com/allen4747/Ferret.