DFDG: Data-Free Dual-Generator Adversarial Distillation for One-Shot Federated Learning

📄 arXiv: 2409.07734v2 📥 PDF

作者: Kangyang Luo, Shuai Wang, Yexuan Fu, Renrong Shao, Xiang Li, Yunshi Lan, Ming Gao, Jinlong Shu

分类: cs.DC, cs.LG

发布日期: 2024-09-12 (更新: 2024-09-16)

备注: Accepted by ICDM2024 main conference (long paper). arXiv admin note: substantial text overlap with arXiv:2309.13546


💡 一句话要点

提出DFDG:一种用于单次联邦学习的无数据双生成器对抗蒸馏方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 联邦学习 单次联邦学习 无数据学习 对抗蒸馏 生成对抗网络 知识蒸馏 双生成器

📋 核心要点

  1. 现有单次联邦学习方法依赖公共数据、局限于同构模型或知识提取不足,难以训练鲁棒的全局模型。
  2. DFDG通过训练双生成器探索更广阔的本地模型训练空间,并采用对抗蒸馏方法提升全局模型性能。
  3. 实验表明,DFDG在图像分类任务中显著优于现有最佳方法,验证了其有效性。

📝 摘要(中文)

联邦学习(FL)是一种分布式机器学习方案,客户端通过共享模型信息而非私有数据集来共同参与全局模型的协同训练。考虑到通信和隐私相关的担忧,单次通信的单次FL已成为一种有前景的解决方案。然而,现有的单次FL方法要么需要公共数据集,要么侧重于模型同构设置,要么从本地模型中提取有限的知识,这使得训练一个鲁棒的全局模型变得困难甚至不切实际。为了解决这些限制,我们提出了一种新的无数据双生成器对抗蒸馏方法(即DFDG)用于单次FL,该方法可以通过训练双生成器来探索更广泛的本地模型训练空间。DFDG以对抗方式执行,包含两个部分:双生成器训练和双模型蒸馏。在双生成器训练中,我们深入研究每个生成器的保真度、可迁移性和多样性,以确保其效用,并专门定制交叉散度损失以减少双生成器输出空间的重叠。在双模型蒸馏中,训练好的双生成器协同工作,为全局模型的更新提供训练数据。最后,我们在各种图像分类任务上的大量实验表明,与SOTA基线相比,DFDG在准确性方面取得了显著的性能提升。

🔬 方法详解

问题定义:论文旨在解决单次联邦学习中,由于缺乏公共数据、模型同构限制以及知识蒸馏不足,导致全局模型训练困难的问题。现有方法无法充分利用本地模型的信息,限制了全局模型的性能。

核心思路:论文的核心思路是利用双生成器来模拟本地数据分布,并通过对抗训练的方式,使生成器能够生成高质量、多样化的数据,从而为全局模型的训练提供充足的“伪数据”。通过双生成器,可以探索更广泛的本地模型训练空间,提取更丰富的知识。

技术框架:DFDG包含两个主要阶段:双生成器训练和双模型蒸馏。在双生成器训练阶段,每个客户端训练两个生成器,目标是生成能够欺骗判别器的数据。同时,引入交叉散度损失来减少两个生成器输出空间的重叠,增加生成数据的多样性。在双模型蒸馏阶段,训练好的双生成器协同工作,生成用于更新全局模型的训练数据。全局模型利用这些数据进行训练,从而学习到本地模型的知识。

关键创新:DFDG的关键创新在于提出了双生成器对抗蒸馏框架,并针对双生成器的特性设计了特定的训练策略。与传统的单生成器方法相比,双生成器能够探索更广泛的本地模型训练空间,生成更具多样性的数据。此外,交叉散度损失的引入有效地减少了生成器输出空间的重叠,进一步提升了数据的质量。

关键设计:在双生成器训练中,论文设计了保真度、可迁移性和多样性三个方面的损失函数来约束生成器的训练。保真度损失保证生成的数据能够欺骗判别器,可迁移性损失保证生成的数据能够被全局模型利用,多样性损失则鼓励生成器生成不同的数据。交叉散度损失的具体形式为KL散度,用于衡量两个生成器输出分布的差异。生成器的网络结构可以根据具体任务进行选择,例如可以使用GAN常用的DCGAN结构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DFDG在多个图像分类任务上取得了显著的性能提升。例如,在CIFAR-10数据集上,DFDG的准确率比SOTA基线方法提高了5%以上。此外,实验还验证了双生成器和交叉散度损失的有效性,证明了DFDG能够有效地探索本地模型训练空间,并生成高质量的训练数据。

🎯 应用场景

DFDG适用于对数据隐私有较高要求的联邦学习场景,例如医疗健康、金融等领域。该方法可以有效解决数据孤岛问题,在保护用户隐私的前提下,实现模型的协同训练和知识共享。未来,该方法可以扩展到更复杂的联邦学习场景,例如异构联邦学习、个性化联邦学习等。

📄 摘要(原文)

Federated Learning (FL) is a distributed machine learning scheme in which clients jointly participate in the collaborative training of a global model by sharing model information rather than their private datasets. In light of concerns associated with communication and privacy, one-shot FL with a single communication round has emerged as a de facto promising solution. However, existing one-shot FL methods either require public datasets, focus on model homogeneous settings, or distill limited knowledge from local models, making it difficult or even impractical to train a robust global model. To address these limitations, we propose a new data-free dual-generator adversarial distillation method (namely DFDG) for one-shot FL, which can explore a broader local models' training space via training dual generators. DFDG is executed in an adversarial manner and comprises two parts: dual-generator training and dual-model distillation. In dual-generator training, we delve into each generator concerning fidelity, transferability and diversity to ensure its utility, and additionally tailor the cross-divergence loss to lessen the overlap of dual generators' output spaces. In dual-model distillation, the trained dual generators work together to provide the training data for updates of the global model. At last, our extensive experiments on various image classification tasks show that DFDG achieves significant performance gains in accuracy compared to SOTA baselines.