Boosting Multimodal Federated Learning via Chained Modality Optimization

📄 arXiv: 2606.01856v1 📥 PDF

作者: Zixin Zhang, Fan Qi, Shuai Li, Xiaoshan Yang, Changsheng Xu

分类: cs.DC, cs.AI

发布日期: 2026-06-01


💡 一句话要点

提出FedMChain,通过链式模态优化提升多模态联邦学习性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态联邦学习 模态竞争 链式优化 符号引导聚合 隐私保护 异构数据 跨模态融合

📋 核心要点

  1. 现有MMFL方法忽略了模态竞争问题,即强势模态抑制弱势模态,导致全局模型性能下降。
  2. FedMChain将多模态训练分解为模态阶段链,为每个模态提供独立的优化窗口,缓解模态竞争,并利用正则化促进跨模态互补。
  3. 实验表明,FedMChain在提升预测性能的同时,降低了通信频率,优于现有基线方法。

📝 摘要(中文)

多模态联邦学习(MMFL)实现了在具有异构数据和模态可用性的去中心化客户端之间进行保护隐私的协同学习。然而,现有的大多数MMFL方法将多模态训练视为一个联合优化问题,忽略了一个关键瓶颈:模态竞争,即主导模态抑制较弱模态,导致次优的全局模型。为了解决这个问题,我们提出了FedMChain,一个平衡的MMFL框架,它将联邦多模态训练构建为模态阶段链。这种分阶段设计为多模态客户端上的每个模态提供了一个专用的局部优化窗口,以减轻模态竞争,并通过误差补偿正则化进一步促进跨模态互补。在服务器端,我们采用稀疏的符号引导聚合策略,该策略利用方向符号一致性进行鲁棒的模态内聚合,避免破坏性平均,并支持较低频率的同步以减少通信开销。在多模态基准上的大量实验表明,FedMChain始终提高预测性能,同时比基线需要更少的通信频率。

🔬 方法详解

问题定义:现有的多模态联邦学习方法通常将多模态训练视为一个联合优化问题,忽略了不同模态之间存在的竞争关系。强势模态容易主导训练过程,导致弱势模态的信息被忽略,最终影响全局模型的性能。这种模态竞争是多模态联邦学习中的一个关键痛点。

核心思路:FedMChain的核心思路是将多模态联邦学习过程分解为一系列模态相关的阶段。每个阶段专注于优化一个特定的模态,从而避免了模态之间的直接竞争。通过这种链式优化方式,每个模态都有机会充分学习,并为全局模型贡献有用的信息。此外,通过误差补偿正则化,可以促进不同模态之间的互补,进一步提升模型性能。

技术框架:FedMChain的整体框架包含客户端和服务器端两部分。在客户端,每个参与者首先进行本地模态训练,每个模态依次进行优化。然后,客户端将更新后的模型参数上传到服务器。在服务器端,采用稀疏的符号引导聚合策略,根据客户端上传参数的符号一致性进行聚合,避免了破坏性的平均,并支持较低频率的同步。

关键创新:FedMChain的关键创新在于其链式模态优化策略和稀疏符号引导聚合。链式模态优化通过分阶段训练,有效缓解了模态竞争问题。稀疏符号引导聚合则利用参数符号信息进行更鲁棒的聚合,并降低了通信开销。与现有方法相比,FedMChain能够更好地平衡不同模态的贡献,并提高通信效率。

关键设计:FedMChain的关键设计包括:1) 链式模态优化顺序,可以根据模态的重要性或数据质量进行调整。2) 误差补偿正则化项,用于促进跨模态互补,具体形式未知。3) 稀疏符号引导聚合的阈值设置,用于控制参数更新的稀疏性。4) 客户端本地训练的epoch数和学习率等超参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FedMChain在多个多模态基准数据集上进行了实验,结果表明,FedMChain在预测性能上始终优于现有基线方法,并且在保证性能的同时,降低了通信频率。具体的性能提升数据和对比基线信息未知,但摘要强调了其一致性和优越性。

🎯 应用场景

FedMChain适用于各种涉及多模态数据的联邦学习场景,例如:医疗健康领域,可以整合患者的影像数据、基因数据和临床记录,进行疾病诊断和预测;自动驾驶领域,可以融合车载传感器的图像、激光雷达和雷达数据,提高环境感知能力;金融风控领域,可以结合用户的交易记录、社交行为和信用信息,进行风险评估。该研究有助于在保护用户隐私的前提下,充分利用多模态数据提升模型性能。

📄 摘要(原文)

Multimodal Federated Learning (MMFL) enables privacy-preserving collaborative learning across decentralized clients with heterogeneous data and modality availability. However, most existing MMFL methods cast multimodal training as a joint optimization problem, overlooking a key bottleneck: modality competition, where dominant modalities suppress weaker ones and lead to suboptimal global models. To address this, we propose FedMChain, a balanced MMFL framework that structures federated multimodal training as a chain of modality-wise phases. This phase-wise design gives each modality a dedicated local optimization window on multimodal clients to mitigate modality competition, and further promotes cross-modal complementarity via an error-compensated regularizer. On the server side, we employ a sparse sign-guided aggregation strategy that leverages directional sign agreement for robust intra-modality aggregation, avoids destructive averaging, and supports less frequent synchronization to reduce communication overhead. Extensive experiments on multimodal benchmarks demonstrate that FedMChain consistently improves predictive performance while requiring less frequent communication than baselines.