Multimodal Lego: Model Merging and Fine-Tuning Across Topologies and Modalities in Biomedicine

📄 arXiv: 2405.19950v2 📥 PDF

作者: Konstantin Hemker, Nikola Simidjievski, Mateja Jamnik

分类: cs.LG, cs.AI

发布日期: 2024-05-30 (更新: 2025-04-16)


💡 一句话要点

提出MM-Lego,一种通用的生物医学多模态融合框架,无需或仅需少量微调即可实现高性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 生物医学 模型融合 频域学习 迁移学习

📋 核心要点

  1. 现有生物医学多模态融合方法通常需要端到端训练,对模态数量敏感,且难以处理模态不平衡或拓扑结构差异。
  2. MM-Lego通过引入wrapper强制形状一致性,并在频域学习特征来协调不同模态的表示,从而实现高效的模型融合。
  3. 实验表明,MM-Lego无需微调即可达到与端到端模型相当的性能,少量微调后在多个生物医学数据集上超越现有方法。

📝 摘要(中文)

在物理、化学或生物系统中学习整体计算表示需要处理来自不同分布和模态的信息。因此,对于超越视觉和语言的模态(如序列、图、时间序列或表格数据)的多模态机器学习模型的需求急剧上升。虽然有许多可用的多模态融合和对齐方法,但它们大多需要端到端训练,随模态数量呈二次方增长,无法处理训练集中高度模态不平衡的情况,或者具有高度的拓扑结构特异性,这使得它们对于许多生物医学学习任务来说过于严格。本文提出Multimodal Lego (MM-Lego),一种通用的融合框架,可以将任何编码器集合转化为具有竞争力的多模态模型,无需或只需极少的微调。我们通过为任何单模态编码器引入一个wrapper来实现这一点,该wrapper强制模态表示之间形状的一致性。它通过在频域中学习特征来协调这些表示,从而实现模型融合,减少信号干扰。我们证明MM-Lego 1) 可以用作模型融合方法,在没有任何微调的情况下,实现与端到端融合模型具有竞争力的性能;2) 可以对任何单模态编码器进行操作;3) 是一种模型融合方法,通过最少的微调,在七个数据集中的五个数据集中超过所有基准。

🔬 方法详解

问题定义:论文旨在解决生物医学领域多模态数据融合的难题。现有方法,如端到端训练的模型,存在计算成本高、对模态数量敏感、难以处理模态不平衡以及对特定数据拓扑结构依赖性强等问题。这些限制阻碍了多模态学习在生物医学领域的广泛应用。

核心思路:MM-Lego的核心思路是将不同的单模态编码器“拼接”成一个多模态模型,而无需从头开始训练整个模型。通过在频域中学习特征,可以减少不同模态之间的信号干扰,从而实现更有效的模型融合。这种方法允许灵活地组合不同的编码器,并能有效处理模态不平衡问题。

技术框架:MM-Lego框架包含以下几个主要组成部分:1) 单模态编码器:可以是任何预训练的或自定义的单模态模型。2) Wrapper:一个关键组件,用于将单模态编码器的输出转换为统一的形状,并将其特征映射到频域。3) 融合模块:将来自不同模态的频域特征进行融合,例如通过简单的拼接或更复杂的注意力机制。4) 预测模块:基于融合后的特征进行最终的预测。

关键创新:MM-Lego的关键创新在于其通用的融合框架和频域特征学习方法。通过wrapper强制形状一致性,使得不同拓扑结构的编码器可以无缝集成。在频域学习特征可以减少模态间的干扰,提高融合效率。此外,MM-Lego无需或仅需少量微调,大大降低了训练成本。

关键设计:Wrapper的设计是MM-Lego的关键。它通常包含一个线性层或卷积层,用于将单模态编码器的输出投影到统一的维度。然后,通过傅里叶变换将特征转换到频域。损失函数的设计旨在最小化模态间的干扰,例如可以使用互信息损失或对抗损失。融合模块可以使用简单的拼接操作,也可以使用注意力机制来学习不同模态的重要性。

📊 实验亮点

MM-Lego在多个生物医学数据集上进行了评估,结果表明其性能优于或与端到端训练的多模态模型相当。在无需微调的情况下,MM-Lego即可达到具有竞争力的性能。经过少量微调后,MM-Lego在七个数据集中的五个数据集上超越了所有基准模型,证明了其有效性和泛化能力。

🎯 应用场景

MM-Lego在生物医学领域具有广泛的应用前景,例如疾病诊断、药物发现、基因组学研究等。它可以整合来自不同来源的数据,如基因表达数据、蛋白质结构数据、医学影像数据等,从而更全面地理解生物系统,加速科研进展。该框架的通用性和高效性使其能够适应各种生物医学学习任务。

📄 摘要(原文)

Learning holistic computational representations in physical, chemical or biological systems requires the ability to process information from different distributions and modalities within the same model. Thus, the demand for multimodal machine learning models has sharply risen for modalities that go beyond vision and language, such as sequences, graphs, time series, or tabular data. While there are many available multimodal fusion and alignment approaches, most of them require end-to-end training, scale quadratically with the number of modalities, cannot handle cases of high modality imbalance in the training set, or are highly topology-specific, making them too restrictive for many biomedical learning tasks. This paper presents Multimodal Lego (MM-Lego), a general-purpose fusion framework to turn any set of encoders into a competitive multimodal model with no or minimal fine-tuning. We achieve this by introducing a wrapper for any unimodal encoder that enforces shape consistency between modality representations. It harmonises these representations by learning features in the frequency domain to enable model merging with little signal interference. We show that MM-Lego 1) can be used as a model merging method which achieves competitive performance with end-to-end fusion models without any fine-tuning, 2) can operate on any unimodal encoder, and 3) is a model fusion method that, with minimal fine-tuning, surpasses all benchmarks in five out of seven datasets.