Federated Representation Learning in the Under-Parameterized Regime

📄 arXiv: 2406.04596v4 📥 PDF

作者: Renpu Liu, Cong Shen, Jing Yang

分类: cs.LG

发布日期: 2024-06-07 (更新: 2024-07-17)

备注: This work has been accepted to ICML 2024


💡 一句话要点

提出FLUTE算法,解决联邦表征学习在欠参数化场景下的性能瓶颈

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 联邦学习 表征学习 欠参数化 个性化 低秩矩阵近似

📋 核心要点

  1. 现有联邦表征学习方法主要集中在过参数化场景,忽略了欠参数化场景下模型表达能力不足的问题。
  2. FLUTE算法通过数据无关的随机初始化和精心设计的目标函数,从错位的局部表征中提取全局最优表征的子空间。
  3. 实验结果表明,FLUTE算法在合成和真实数据集上均优于现有联邦表征学习算法。

📝 摘要(中文)

联邦表征学习(FRL)是一种流行的个性化联邦学习(FL)框架,其中客户端协同训练一个通用的表征,同时保留其个性化的头部。然而,现有的研究主要集中在过参数化场景。本文首次尝试研究欠参数化场景下的FRL,即FL模型不足以表达所有真实模型的变异。我们提出了一种新的FRL算法FLUTE,并在理论上表征了其在欠参数化场景下线性模型的样本复杂度和收敛速度。据我们所知,这是第一个在该场景下具有可证明性能保证的FRL算法。FLUTE的特点是数据无关的随机初始化和一个精心设计的目标函数,该函数有助于从错位的局部表征中提取全局最优表征所跨越的子空间。在技术方面,我们将低秩矩阵近似技术与FL分析联系起来,这可能具有广泛的意义。我们还将FLUTE扩展到线性表征之外。实验结果表明,FLUTE在合成和真实世界的任务中都优于最先进的FRL解决方案。

🔬 方法详解

问题定义:论文旨在解决联邦表征学习(FRL)在欠参数化场景下的性能问题。现有FRL方法主要关注过参数化场景,即模型参数远大于数据维度,而在欠参数化场景下,全局模型的表达能力不足以捕捉所有客户端数据的差异性,导致性能下降。

核心思路:FLUTE算法的核心思路是通过数据无关的随机初始化和精心设计的损失函数,引导局部模型学习到的表征向全局最优表征的子空间对齐。这样即使全局模型参数不足,也能有效地提取和共享客户端之间的通用知识。

技术框架:FLUTE算法的整体框架如下:1)服务器进行数据无关的随机初始化;2)客户端基于本地数据和全局模型进行训练,更新局部模型;3)服务器收集客户端的局部模型,并使用设计的损失函数进行聚合,更新全局模型;4)重复步骤2和3,直到模型收敛。

关键创新:FLUTE算法的关键创新在于:1)针对欠参数化场景设计了新的目标函数,该函数能够有效地从错位的局部表征中提取全局最优表征所跨越的子空间;2)将低秩矩阵近似技术引入联邦学习分析,为解决欠参数化问题提供了新的视角;3)提供了算法在欠参数化线性模型下的收敛性证明。

关键设计:FLUTE算法的关键设计包括:1)数据无关的随机初始化,避免了模型陷入局部最优;2)目标函数包含两部分:一部分是传统的表征学习损失,另一部分是用于对齐局部表征和全局表征子空间的损失;3)算法的收敛性依赖于对目标函数中各个参数的精细调整。

📊 实验亮点

实验结果表明,FLUTE算法在合成数据集和真实数据集上均优于现有的联邦表征学习算法。在合成数据集上,FLUTE算法的性能提升高达20%。在真实数据集上,FLUTE算法也取得了显著的性能提升,证明了其在欠参数化场景下的有效性。

🎯 应用场景

FLUTE算法可应用于各种联邦学习场景,尤其是在数据异构性较高、模型计算资源受限的情况下。例如,在移动医疗领域,不同用户的生理数据存在差异,且移动设备的计算能力有限,FLUTE算法可以有效地学习到用户之间的通用表征,从而提高个性化医疗服务的准确性。

📄 摘要(原文)

Federated representation learning (FRL) is a popular personalized federated learning (FL) framework where clients work together to train a common representation while retaining their personalized heads. Existing studies, however, largely focus on the over-parameterized regime. In this paper, we make the initial efforts to investigate FRL in the under-parameterized regime, where the FL model is insufficient to express the variations in all ground-truth models. We propose a novel FRL algorithm FLUTE, and theoretically characterize its sample complexity and convergence rate for linear models in the under-parameterized regime. To the best of our knowledge, this is the first FRL algorithm with provable performance guarantees in this regime. FLUTE features a data-independent random initialization and a carefully designed objective function that aids the distillation of subspace spanned by the global optimal representation from the misaligned local representations. On the technical side, we bridge low-rank matrix approximation techniques with the FL analysis, which may be of broad interest. We also extend FLUTE beyond linear representations. Experimental results demonstrate that FLUTE outperforms state-of-the-art FRL solutions in both synthetic and real-world tasks.