Multimodal Federated Learning With Missing Modalities through Feature Imputation Network

📄 arXiv: 2505.20232v1 📥 PDF

作者: Pranav Poudel, Aavash Chhetri, Prashnna Gyawali, Georgios Leontidis, Binod Bhattarai

分类: cs.LG, cs.CV

发布日期: 2025-05-26

备注: MIUA 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于特征补全网络的多模态联邦学习方法,解决模态缺失问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态联邦学习 模态缺失 特征补全 特征转换器 医疗影像分析

📋 核心要点

  1. 医疗多模态联邦学习面临模态缺失的挑战,现有方法依赖真实或合成数据,但成本高昂且易出错。
  2. 论文提出一种轻量级特征转换器,在低维空间重建缺失模态的瓶颈特征,降低计算成本。
  3. 在MIMIC-CXR等数据集上的实验表明,该方法在同构和异构设置下均优于现有基线。

📝 摘要(中文)

多模态联邦学习在无需共享原始数据的情况下,为协作训练模型提供了巨大的潜力,解决了医疗保健领域的数据稀缺和隐私问题。然而,在医疗保健中训练多模态联邦模型的主要挑战是模态缺失,这归因于临床实践差异、成本和可访问性限制、回顾性数据收集、隐私问题以及技术或人为错误。以往方法通常依赖公开的真实数据集或合成数据来弥补缺失模态。但获取每种疾病的真实数据集不切实际,且训练生成模型来合成缺失模态计算成本高昂,并容易因医学数据的高维度而产生误差。本文提出了一种新颖的、轻量级的、低维特征转换器,用于重建缺失模态的瓶颈特征。在三个不同的数据集(MIMIC-CXR、NIH Open-I 和 CheXpert)上的同构和异构设置中的实验结果表明,该方法始终优于具有竞争力的基线。

🔬 方法详解

问题定义:论文旨在解决多模态联邦学习中,由于各种原因导致的模态缺失问题。现有方法,如使用真实数据集或训练生成模型合成数据,存在获取成本高、计算量大、易出错等痛点,尤其是在高维医学数据场景下。

核心思路:论文的核心思路是利用一个轻量级的特征转换器,在低维的瓶颈特征空间中重建缺失的模态特征。通过学习模态之间的映射关系,将已有的模态特征转换为缺失模态的特征表示。这种方法避免了直接生成高维数据,降低了计算复杂度,并减少了生成错误的可能性。

技术框架:整体框架包含多个参与联邦学习的客户端和一个服务器。每个客户端拥有部分模态的数据。客户端首先使用本地数据训练一个编码器,将已有的模态数据编码到低维的瓶颈特征空间。然后,客户端使用特征转换器将已有的模态特征转换为缺失模态的特征。服务器负责聚合来自不同客户端的模型参数,并更新全局模型。

关键创新:最重要的创新点在于提出了一个轻量级的、低维的特征转换器,用于重建缺失模态的瓶颈特征。与直接生成高维数据相比,这种方法显著降低了计算成本,并减少了生成错误的可能性。此外,该方法适用于同构和异构的联邦学习设置。

关键设计:特征转换器可以使用简单的神经网络结构,如多层感知机(MLP)。损失函数可以采用均方误差(MSE)或余弦相似度等,用于衡量重建特征与真实特征之间的差异。具体的网络结构、参数设置和损失函数需要根据具体的数据集和任务进行调整。论文中提供了具体的实现细节和代码。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在MIMIC-CXR、NIH Open-I和CheXpert三个数据集上,均优于现有的基线方法。在同构和异构设置下,该方法都能有效地重建缺失模态的特征,并提高模型的性能。具体的性能提升幅度在论文中有详细的数值展示,例如,在某个数据集上,该方法相比于基线方法,AUC指标提升了X%。

🎯 应用场景

该研究成果可应用于医疗影像分析、疾病诊断、药物研发等领域。通过联邦学习,不同医疗机构可以在保护患者隐私的前提下,共享数据并联合训练模型,从而提高模型的泛化能力和诊断准确率。该方法尤其适用于数据模态不完整的场景,例如,某些患者可能缺少特定的影像数据或基因数据。

📄 摘要(原文)

Multimodal federated learning holds immense potential for collaboratively training models from multiple sources without sharing raw data, addressing both data scarcity and privacy concerns, two key challenges in healthcare. A major challenge in training multimodal federated models in healthcare is the presence of missing modalities due to multiple reasons, including variations in clinical practice, cost and accessibility constraints, retrospective data collection, privacy concerns, and occasional technical or human errors. Previous methods typically rely on publicly available real datasets or synthetic data to compensate for missing modalities. However, obtaining real datasets for every disease is impractical, and training generative models to synthesize missing modalities is computationally expensive and prone to errors due to the high dimensionality of medical data. In this paper, we propose a novel, lightweight, low-dimensional feature translator to reconstruct bottleneck features of the missing modalities. Our experiments on three different datasets (MIMIC-CXR, NIH Open-I, and CheXpert), in both homogeneous and heterogeneous settings consistently improve the performance of competitive baselines. The code and implementation details are available at: https://github.com/bhattarailab/FedFeatGen