OvA-LP: A Simple and Efficient Framework for Federated Learning on Non-IID Data
作者: Dongjin Park, Hasung Yeo, Joon-Woo Lee
分类: cs.LG, cs.AI
发布日期: 2025-11-07
💡 一句话要点
OvA-LP:一种简单高效的联邦学习框架,用于解决非独立同分布数据下的模型漂移问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 联邦学习 非独立同分布数据 模型漂移 线性探测 一对多分类
📋 核心要点
- 联邦学习在非独立同分布数据下,由于客户端更新差异导致模型漂移,现有方法事后纠正效果有限。
- OvA-LP通过冻结编码器、线性探测和一对多头部,从源头抑制模型漂移,提升模型在异构数据下的鲁棒性。
- 实验表明,OvA-LP在CIFAR-100数据集上,相比现有方法,显著提升了在非独立同分布数据下的模型精度。
📝 摘要(中文)
联邦微调(FFT)将基础模型适配到去中心化数据,但由于局部漂移,在异构客户端分布下仍然脆弱。局部漂移是指客户端级别的更新差异,会在全局模型中引起系统性偏差和放大的方差。现有的聚合和个性化方法主要在事后纠正漂移,这在极端的非独立同分布(non-IID)条件下被证明是脆弱的。我们引入了OvA-LP,据我们所知,这是一个极简框架,它被明确设计为在基于PEFT的FFT范式中从源头上抑制漂移。OvA-LP结合了冻结编码器上的线性探测、一对多(one-vs-all)头部和一个简单的两阶段过程,保留了预训练的特征几何结构并解耦了logits,以防止放大漂移的机制。在具有100个客户端的CIFAR-100上,对shard-1、shard-2和Bernoulli-Dirichlet分区进行平均,OvA-LP保留了95.9%的独立同分布(IID)精度,而最先进的FFT基线在相同条件下仅保留了10.1%(PFPT)和34.5%(FFT-MoE)。OvA-LP进一步保持了在对称和非对称标签噪声下的鲁棒性。此外,预计算编码器特征使得每轮的成本几乎与编码器大小无关。总之,这些结果表明,OvA-LP为异构性下的鲁棒FFT提供了一个有原则且高效的基础。
🔬 方法详解
问题定义:联邦学习中的联邦微调(FFT)方法在处理非独立同分布(non-IID)数据时,会受到局部漂移的影响。这种漂移源于客户端之间数据分布的差异,导致客户端级别的模型更新方向不一致,最终在全局模型中引入偏差和方差,降低模型性能。现有方法主要集中在聚合或个性化阶段对漂移进行事后纠正,但这些方法在极端非独立同分布情况下效果不佳。
核心思路:OvA-LP的核心思路是从源头上抑制模型漂移,而不是事后纠正。它通过保留预训练模型的特征几何结构,并解耦logits,来防止放大漂移的机制。具体来说,OvA-LP冻结了预训练模型的编码器部分,并使用线性探测来训练分类器,这样可以避免在微调过程中改变预训练模型的特征空间。同时,使用一对多(one-vs-all)头部来解耦logits,减少类别之间的相互影响。
技术框架:OvA-LP框架主要包含以下几个步骤:1) 特征提取:使用预训练的编码器提取客户端数据的特征。由于编码器被冻结,因此每个客户端的特征提取过程是独立的,不会受到其他客户端的影响。2) 线性探测:在冻结的编码器之上,添加一个线性分类器(一对多头部),并使用客户端的本地数据进行训练。3) 全局聚合:将各个客户端训练得到的线性分类器进行聚合,得到全局模型。4) 推理:使用全局模型对新的数据进行分类。
关键创新:OvA-LP的关键创新在于其从源头上抑制模型漂移的设计。与现有方法不同,OvA-LP不是在聚合或个性化阶段对漂移进行纠正,而是在客户端训练阶段就避免了漂移的产生。通过冻结编码器和使用线性探测,OvA-LP保留了预训练模型的特征几何结构,避免了在微调过程中改变特征空间。同时,使用一对多头部解耦logits,减少了类别之间的相互影响。
关键设计:OvA-LP的关键设计包括:1) 冻结编码器:冻结预训练模型的编码器部分,避免在微调过程中改变特征空间。2) 线性探测:使用线性分类器进行训练,避免引入非线性变换,从而保留预训练模型的特征几何结构。3) 一对多头部:使用一对多头部来解耦logits,减少类别之间的相互影响。4) 两阶段训练:OvA-LP采用两阶段训练策略,首先在预训练数据集上训练编码器,然后在联邦学习过程中只训练线性分类器。
🖼️ 关键图片
📊 实验亮点
在CIFAR-100数据集上,OvA-LP在shard-1、shard-2和Bernoulli-Dirichlet三种非独立同分布数据划分方式下,平均保留了95.9%的独立同分布精度,而最先进的FFT基线PFPT和FFT-MoE分别只保留了10.1%和34.5%。此外,OvA-LP在对称和非对称标签噪声下也表现出良好的鲁棒性。预计算编码器特征的设计使得每轮训练成本几乎与编码器大小无关,提升了训练效率。
🎯 应用场景
OvA-LP适用于各种需要联邦学习的场景,尤其是在数据异构性较高的环境下。例如,医疗影像分析、金融风控、自动驾驶等领域,不同机构或设备上的数据分布可能存在显著差异,OvA-LP可以有效提升联邦学习模型的鲁棒性和泛化能力。该方法降低了对数据同质性的要求,使得更多机构能够参与到联邦学习中,从而实现更大的数据价值。
📄 摘要(原文)
Federated fine-tuning (FFT) adapts foundation models to decentralized data but remains fragile under heterogeneous client distributions due to local drift, i.e., client-level update divergences that induce systematic bias and amplified variance in the global model. Existing aggregation and personalization methods largely correct drift post hoc, which proves brittle under extreme non-IID conditions. We introduce OvA-LP, a minimalist framework that is, to our knowledge, the first explicitly designed to suppress drift at its source within the PEFT-based FFT paradigm. OvA-LP combines linear probing on a frozen encoder with a one-vs-all head and a simple two-stage procedure, preserving pretrained feature geometry and decoupling logits to prevent the mechanisms that amplify drift. On CIFAR-100 with 100 clients, averaged over shard-1, shard-2, and Bernoulli-Dirichlet partitions, OvA-LP retains 95.9% of its IID accuracy, whereas state-of-the-art FFT baselines retain only 10.1% (PFPT) and 34.5% (FFT-MoE) under the same conditions. OvA-LP further maintains resilience under both symmetric and asymmetric label noise. In addition, precomputing encoder features makes per-round cost nearly independent of encoder size. Together, these results demonstrate that OvA-LP provides a principled and efficient basis for robust FFT under heterogeneity.