On Homomorphic Encryption Based Strategies for Class Imbalance in Federated Learning

📄 arXiv: 2410.21192v1 📥 PDF

作者: Arpit Guleria, J. Harshan, Ranjitha Prasad, B. N. Bharath

分类: cs.CR, cs.IT, cs.LG

发布日期: 2024-10-28

备注: Accepted for Presentation at CODS COMAD 2024


💡 一句话要点

提出FLICKER,一种基于同态加密的联邦学习不平衡类问题解决方案

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 联邦学习 类别不平衡 同态加密 CKKS 隐私保护

📋 核心要点

  1. 联邦学习中,各客户端数据类别不平衡会导致全局模型产生偏差,影响模型性能。
  2. FLICKER利用CKKS同态加密,使客户端在保护隐私的前提下共享数据属性并平衡数据集。
  3. 实验结果表明,FLICKER能显著提升联邦学习在不平衡数据集上的准确率。

📝 摘要(中文)

训练数据集中存在的类别不平衡会导致机器学习模型产生偏差和泛化能力下降。虽然在集中式学习环境中,预处理训练数据集可以有效地解决这些问题,但在分布式学习环境(如联邦学习)中,检测和解决这些问题具有挑战性。本文提出了一种名为FLICKER的隐私保护框架,旨在解决联邦学习中与全局类别不平衡相关的问题。我们贡献的核心在于流行的CKKS同态加密方案,客户端使用该方案私密地共享其数据属性,然后在实施联邦学习方案之前平衡其数据集。大量的实验结果表明,当与流行的数据集和相关的基线一起使用时,我们提出的方法显著提高了联邦学习的准确性。

🔬 方法详解

问题定义:联邦学习中,各个客户端的数据分布可能存在显著的类别不平衡,这会导致全局模型在少数类别上的表现不佳,从而影响整体的泛化能力。现有的联邦学习方法通常假设数据是独立同分布的,因此无法有效解决类别不平衡问题。直接共享原始数据进行平衡又会泄露用户隐私。

核心思路:FLICKER的核心思路是在保护客户端数据隐私的前提下,使客户端能够了解全局的类别分布情况,并根据全局分布调整本地数据集,从而缓解类别不平衡问题。通过同态加密,客户端可以安全地共享数据属性,而无需暴露原始数据。

技术框架:FLICKER框架主要包含以下几个阶段:1) 客户端使用CKKS同态加密方案加密其数据属性(例如类别标签的统计信息);2) 加密后的数据属性被发送到服务器;3) 服务器在密文状态下聚合来自所有客户端的数据属性;4) 服务器将聚合后的密文结果发送回客户端;5) 客户端解密结果,获得全局的类别分布信息;6) 客户端根据全局分布,调整本地数据集(例如通过过采样或欠采样),以平衡类别;7) 客户端使用平衡后的数据集进行本地模型训练;8) 客户端将模型更新发送到服务器;9) 服务器聚合来自所有客户端的模型更新,得到全局模型。

关键创新:FLICKER的关键创新在于利用同态加密技术,实现了在保护隐私的前提下进行全局类别信息共享和本地数据集平衡。这使得联邦学习能够在类别不平衡的情况下,也能训练出具有良好泛化能力的全局模型。与传统的联邦学习方法相比,FLICKER无需假设数据是独立同分布的,能够更好地适应实际应用场景。

关键设计:FLICKER使用CKKS同态加密方案来保护数据属性的隐私。CKKS方案允许在密文上进行近似计算,这使得服务器能够在密文状态下聚合来自所有客户端的数据属性。客户端可以根据全局类别分布,采用不同的采样策略来平衡本地数据集。例如,可以对少数类别进行过采样,或者对多数类别进行欠采样。具体的采样比例可以根据全局分布和本地分布的差异来确定。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FLICKER在类别不平衡的联邦学习任务中,能够显著提高模型的准确率。与传统的联邦学习方法相比,FLICKER在多个数据集上取得了明显的性能提升。具体的提升幅度取决于数据集的类别不平衡程度和所采用的采样策略。实验结果验证了FLICKER在解决联邦学习中的类别不平衡问题方面的有效性。

🎯 应用场景

FLICKER可应用于医疗健康、金融风控等领域,这些领域的数据通常具有类别不平衡的特点。例如,在医疗诊断中,患有罕见疾病的患者数据较少;在金融风控中,欺诈交易的比例通常较低。FLICKER能够在保护用户隐私的前提下,提高联邦学习模型在这些不平衡数据集上的性能,从而提升诊断准确率和风险识别能力。

📄 摘要(原文)

Class imbalance in training datasets can lead to bias and poor generalization in machine learning models. While pre-processing of training datasets can efficiently address both these issues in centralized learning environments, it is challenging to detect and address these issues in a distributed learning environment such as federated learning. In this paper, we propose FLICKER, a privacy preserving framework to address issues related to global class imbalance in federated learning. At the heart of our contribution lies the popular CKKS homomorphic encryption scheme, which is used by the clients to privately share their data attributes, and subsequently balance their datasets before implementing the FL scheme. Extensive experimental results show that our proposed method significantly improves the FL accuracy numbers when used along with popular datasets and relevant baselines.