Diffusion-Guided Semantic Consistency for Multimodal Heterogeneity

📄 arXiv: 2603.19337v1 📥 PDF

作者: Jing Liu, Zhengliang Guo, Yan Wang, Xiaoguang Zhu, Yao Du, Zehua Wang, Victor C. M. Leung

分类: cs.CV, cs.AI

发布日期: 2026-03-19

备注: Accepted by IEEE ICME 2026


💡 一句话要点

提出SemanticFL,利用扩散模型语义一致性解决联邦学习中多模态异构问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 多模态学习 扩散模型 语义一致性 数据异构性 对比学习 隐私保护

📋 核心要点

  1. 联邦学习在非独立同分布数据下性能下降,尤其在多模态感知任务中,根本原因是客户端间存在语义差异。
  2. SemanticFL利用预训练扩散模型提取语义信息,构建共享潜在空间,对齐异构客户端数据,实现隐私保护的联邦学习。
  3. 实验表明,SemanticFL在多个数据集上超越现有联邦学习方法,最高提升5.49%的准确率,验证了其有效性。

📝 摘要(中文)

联邦学习(FL)面临着非独立同分布(non-IID)客户端数据的严峻挑战,这会降低全局模型的性能,尤其是在多模态感知设置中。传统方法通常无法解决客户端之间潜在的语义差异,导致需要鲁棒感知的多媒体系统性能欠佳。为了克服这个问题,我们引入了SemanticFL,这是一个新颖的框架,它利用预训练扩散模型丰富的语义表示,为本地训练提供隐私保护指导。我们的方法利用预训练Stable Diffusion模型的多层语义表示(包括VAE编码的潜在变量和U-Net分层特征),创建一个共享的潜在空间,以对齐异构客户端,并通过高效的客户端-服务器架构(将繁重的计算卸载到服务器)来实现。统一的一致性机制,采用跨模态对比学习,进一步稳定收敛。我们在包括CIFAR-10、CIFAR-100和TinyImageNet在内的基准上,在不同的异构场景下进行了广泛的实验。结果表明,SemanticFL超越了现有的联邦学习方法,相对于FedAvg,准确率提高了5.49%,验证了其在异构和多模态数据中学习鲁棒表示以进行感知任务的有效性。

🔬 方法详解

问题定义:论文旨在解决联邦学习中,由于客户端数据非独立同分布(non-IID)以及多模态异构性导致的全局模型性能下降问题。现有方法难以有效对齐不同客户端之间的语义差异,尤其是在需要鲁棒感知的多媒体系统中,导致模型泛化能力不足。

核心思路:论文的核心思路是利用预训练扩散模型(如Stable Diffusion)强大的语义表征能力,提取客户端数据的深层语义特征,并构建一个共享的潜在空间,从而对齐异构客户端的数据分布。通过在语义层面进行对齐,可以有效缓解数据异构性带来的负面影响,提升全局模型的性能。

技术框架:SemanticFL采用客户端-服务器架构。客户端利用预训练的Stable Diffusion模型提取多层语义特征(包括VAE编码的潜在变量和U-Net分层特征)。这些特征被发送到服务器,服务器利用这些特征构建共享的潜在空间,并使用跨模态对比学习来增强不同客户端之间的一致性。服务器将更新后的模型参数发送回客户端,客户端进行本地训练。

关键创新:该方法最重要的创新点在于利用预训练扩散模型的语义表征能力来指导联邦学习。与传统的联邦学习方法直接聚合客户端的模型参数或梯度不同,SemanticFL在语义层面进行对齐,从而更好地处理数据异构性问题。此外,跨模态对比学习进一步增强了不同客户端之间的一致性。

关键设计:SemanticFL的关键设计包括:1) 使用Stable Diffusion模型提取多层语义特征;2) 构建共享潜在空间,对齐异构客户端数据;3) 采用跨模态对比学习损失函数,增强不同客户端之间的一致性。具体而言,对比学习损失函数旨在拉近来自同一语义类别的不同客户端的特征表示,同时推远来自不同语义类别的特征表示。客户端-服务器架构的设计也考虑了计算效率,将繁重的计算任务卸载到服务器端。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SemanticFL在CIFAR-10、CIFAR-100和TinyImageNet等数据集上,相比于传统的FedAvg方法,准确率提升高达5.49%。在不同的数据异构性场景下,SemanticFL均表现出优越的性能,验证了其在处理多模态异构数据方面的有效性。这些结果表明,利用预训练扩散模型进行语义对齐是提升联邦学习性能的有效途径。

🎯 应用场景

SemanticFL可应用于各种多模态联邦学习场景,例如:医疗影像分析、自动驾驶、智能监控等。在这些场景中,不同机构或设备的数据具有异构性,利用SemanticFL可以有效提升全局模型的性能和泛化能力,同时保护用户隐私。该研究为构建更鲁棒、更高效的联邦学习系统提供了新的思路。

📄 摘要(原文)

Federated learning (FL) is severely challenged by non-independent and identically distributed (non-IID) client data, a problem that degrades global model performance, especially in multimodal perception settings. Conventional methods often fail to address the underlying semantic discrepancies between clients, leading to suboptimal performance for multimedia systems requiring robust perception. To overcome this, we introduce SemanticFL, a novel framework that leverages the rich semantic representations of pre-trained diffusion models to provide privacy-preserving guidance for local training. Our approach leverages multi-layer semantic representations from a pre-trained Stable Diffusion model (including VAE-encoded latents and U-Net hierarchical features) to create a shared latent space that aligns heterogeneous clients, facilitated by an efficient client-server architecture that offloads heavy computation to the server. A unified consistency mechanism, employing cross-modal contrastive learning, further stabilizes convergence. We conduct extensive experiments on benchmarks including CIFAR-10, CIFAR-100, and TinyImageNet under diverse heterogeneity scenarios. Our results demonstrate that SemanticFL surpasses existing federated learning approaches, achieving accuracy gains of up to 5.49% over FedAvg, validating its effectiveness in learning robust representations for heterogeneous and multimodal data for perception tasks.