OvA-LP: A Simple and Efficient Framework for Federated Learning on Non-IID Data

作者: Dongjin Park, Hasung Yeo, Joon-Woo Lee

分类: cs.LG, cs.AI

发布日期: 2025-11-07

💡 一句话要点

OvA-LP：一种简单高效的联邦学习框架，用于解决非独立同分布数据下的模型漂移问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 非独立同分布数据 模型漂移 线性探测 一对多分类

📋 核心要点

联邦学习在非独立同分布数据下，由于客户端更新差异导致模型漂移，现有方法事后纠正效果有限。
OvA-LP通过冻结编码器、线性探测和一对多头部，从源头抑制模型漂移，提升模型在异构数据下的鲁棒性。
实验表明，OvA-LP在CIFAR-100数据集上，相比现有方法，显著提升了在非独立同分布数据下的模型精度。

📝 摘要（中文）

联邦微调(FFT)将基础模型适配到去中心化数据，但由于局部漂移，在异构客户端分布下仍然脆弱。局部漂移是指客户端级别的更新差异，会在全局模型中引起系统性偏差和放大的方差。现有的聚合和个性化方法主要在事后纠正漂移，这在极端的非独立同分布(non-IID)条件下被证明是脆弱的。我们引入了OvA-LP，据我们所知，这是一个极简框架，它被明确设计为在基于PEFT的FFT范式中从源头上抑制漂移。OvA-LP结合了冻结编码器上的线性探测、一对多(one-vs-all)头部和一个简单的两阶段过程，保留了预训练的特征几何结构并解耦了logits，以防止放大漂移的机制。在具有100个客户端的CIFAR-100上，对shard-1、shard-2和Bernoulli-Dirichlet分区进行平均，OvA-LP保留了95.9%的独立同分布(IID)精度，而最先进的FFT基线在相同条件下仅保留了10.1%(PFPT)和34.5%(FFT-MoE)。OvA-LP进一步保持了在对称和非对称标签噪声下的鲁棒性。此外，预计算编码器特征使得每轮的成本几乎与编码器大小无关。总之，这些结果表明，OvA-LP为异构性下的鲁棒FFT提供了一个有原则且高效的基础。

🔬 方法详解

问题定义：联邦学习中的联邦微调(FFT)方法在处理非独立同分布(non-IID)数据时，会受到局部漂移的影响。这种漂移源于客户端之间数据分布的差异，导致客户端级别的模型更新方向不一致，最终在全局模型中引入偏差和方差，降低模型性能。现有方法主要集中在聚合或个性化阶段对漂移进行事后纠正，但这些方法在极端非独立同分布情况下效果不佳。

核心思路：OvA-LP的核心思路是从源头上抑制模型漂移，而不是事后纠正。它通过保留预训练模型的特征几何结构，并解耦logits，来防止放大漂移的机制。具体来说，OvA-LP冻结了预训练模型的编码器部分，并使用线性探测来训练分类器，这样可以避免在微调过程中改变预训练模型的特征空间。同时，使用一对多(one-vs-all)头部来解耦logits，减少类别之间的相互影响。

技术框架：OvA-LP框架主要包含以下几个步骤：1) 特征提取：使用预训练的编码器提取客户端数据的特征。由于编码器被冻结，因此每个客户端的特征提取过程是独立的，不会受到其他客户端的影响。2) 线性探测：在冻结的编码器之上，添加一个线性分类器（一对多头部），并使用客户端的本地数据进行训练。3) 全局聚合：将各个客户端训练得到的线性分类器进行聚合，得到全局模型。4) 推理：使用全局模型对新的数据进行分类。

关键创新：OvA-LP的关键创新在于其从源头上抑制模型漂移的设计。与现有方法不同，OvA-LP不是在聚合或个性化阶段对漂移进行纠正，而是在客户端训练阶段就避免了漂移的产生。通过冻结编码器和使用线性探测，OvA-LP保留了预训练模型的特征几何结构，避免了在微调过程中改变特征空间。同时，使用一对多头部解耦logits，减少了类别之间的相互影响。

关键设计：OvA-LP的关键设计包括：1) 冻结编码器：冻结预训练模型的编码器部分，避免在微调过程中改变特征空间。2) 线性探测：使用线性分类器进行训练，避免引入非线性变换，从而保留预训练模型的特征几何结构。3) 一对多头部：使用一对多头部来解耦logits，减少类别之间的相互影响。4) 两阶段训练：OvA-LP采用两阶段训练策略，首先在预训练数据集上训练编码器，然后在联邦学习过程中只训练线性分类器。

🖼️ 关键图片

📊 实验亮点

在CIFAR-100数据集上，OvA-LP在shard-1、shard-2和Bernoulli-Dirichlet三种非独立同分布数据划分方式下，平均保留了95.9%的独立同分布精度，而最先进的FFT基线PFPT和FFT-MoE分别只保留了10.1%和34.5%。此外，OvA-LP在对称和非对称标签噪声下也表现出良好的鲁棒性。预计算编码器特征的设计使得每轮训练成本几乎与编码器大小无关，提升了训练效率。

🎯 应用场景

OvA-LP适用于各种需要联邦学习的场景，尤其是在数据异构性较高的环境下。例如，医疗影像分析、金融风控、自动驾驶等领域，不同机构或设备上的数据分布可能存在显著差异，OvA-LP可以有效提升联邦学习模型的鲁棒性和泛化能力。该方法降低了对数据同质性的要求，使得更多机构能够参与到联邦学习中，从而实现更大的数据价值。

📄 摘要（原文）

Federated fine-tuning (FFT) adapts foundation models to decentralized data but remains fragile under heterogeneous client distributions due to local drift, i.e., client-level update divergences that induce systematic bias and amplified variance in the global model. Existing aggregation and personalization methods largely correct drift post hoc, which proves brittle under extreme non-IID conditions. We introduce OvA-LP, a minimalist framework that is, to our knowledge, the first explicitly designed to suppress drift at its source within the PEFT-based FFT paradigm. OvA-LP combines linear probing on a frozen encoder with a one-vs-all head and a simple two-stage procedure, preserving pretrained feature geometry and decoupling logits to prevent the mechanisms that amplify drift. On CIFAR-100 with 100 clients, averaged over shard-1, shard-2, and Bernoulli-Dirichlet partitions, OvA-LP retains 95.9% of its IID accuracy, whereas state-of-the-art FFT baselines retain only 10.1% (PFPT) and 34.5% (FFT-MoE) under the same conditions. OvA-LP further maintains resilience under both symmetric and asymmetric label noise. In addition, precomputing encoder features makes per-round cost nearly independent of encoder size. Together, these results demonstrate that OvA-LP provides a principled and efficient basis for robust FFT under heterogeneity.

OvA-LP: A Simple and Efficient Framework for Federated Learning on Non-IID Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理