Learning Emergent Modular Representations in Multi-modality Medical Vision Foundation Models

作者: Yuting He, Chenyu You, Shuo Li

分类: cs.CV, cs.AI

发布日期: 2026-05-21

备注: Accepted by KDD 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出Director-Experts (DEX)模型，解决多模态医学影像中非独立同分布特征导致的表示坍塌问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态医学影像 基础模型 自监督学习 模块化网络 表示学习 非独立同分布 迁移学习

📋 核心要点

多模态医学影像基础模型受限于不同模态间非独立同分布的特征统计，导致模型训练时梯度冲突和表示坍塌。
论文提出Director-Experts (DEX) 模块化网络，通过专家池专注于模态特定统计，director进行跨模态知识整合，平衡专业化和协调。
在包含10种模态的Medical Vision Universe数据集上预训练DEX，并在26个下游任务上验证了其优化行为和可迁移性的提升。

📝 摘要（中文）

多模态医学影像（MV）基础模型面临的主要挑战是异构成像模态之间显著的非独立同分布（Non-IID）特征统计。在此类数据上进行单体自监督优化会产生冲突梯度，导致表示坍塌到模态主导的捷径。本文将此问题重新定义为涌现模块化中专业化和协调之间的不平衡，并提出了Director-Experts（DEX），一种模块化网络，它显式地调节堆叠模块中的这些动态。每个DEX模块包含一个专家池，通过图像激活策略动态调整，自主地专注于模态主导的统计；以及一个director，通过群指数移动平均更新，将多专家知识提炼到一个跨模态语义集成的共享空间，从而驱动模块化表示的涌现。我们创建了一个新的基准，Medical Vision Universe，包含跨越10种模态的400多万张图像，为DEX提供了一个具有最广泛不同成像模态覆盖范围的基础模型级别的预训练。在26个下游任务上的广泛评估表明，DEX具有改进的优化行为和可迁移性，表明DEX是迈向通用多模态医学AI的有原则的一步。我们的代码和数据集将在https://github.com/YutingHe-list/DEX上开放。

🔬 方法详解

问题定义：多模态医学影像数据集中，不同成像模态（如CT、MRI、X光等）的特征统计分布存在显著差异（Non-IID）。直接使用单体模型进行自监督学习时，不同模态的数据会产生冲突的梯度，导致模型倾向于学习模态相关的捷径特征，而忽略跨模态的通用语义信息，最终导致表示坍塌，模型泛化能力差。

核心思路：论文的核心思路是将模型设计为模块化的结构，每个模块包含多个“专家”和一个“指导者”（Director）。每个专家负责学习特定模态的特征，而指导者负责整合所有专家的知识，学习跨模态的共享表示。通过这种方式，模型可以同时学习模态特定的信息和跨模态的通用信息，从而避免表示坍塌。

技术框架：DEX模型由多个堆叠的DEX模块组成。每个DEX模块包含一个专家池和一个指导者。专家池由多个专家网络组成，每个专家网络负责学习特定模态的特征。指导者是一个单独的网络，负责整合所有专家的知识，学习跨模态的共享表示。图像经过DEX模块后，通过图像激活策略动态选择激活哪些专家，然后将激活的专家的输出输入到指导者中，指导者输出最终的表示。

关键创新：DEX的关键创新在于其模块化的结构和动态的专家选择机制。模块化的结构使得模型可以同时学习模态特定的信息和跨模态的通用信息。动态的专家选择机制使得模型可以根据输入图像的模态，选择最合适的专家进行特征提取。此外，使用群指数移动平均（group exponential moving average）更新指导者，可以更有效地整合多专家知识。

关键设计：专家池中的每个专家网络可以是任何类型的神经网络，例如卷积神经网络或Transformer。指导者网络也可以是任何类型的神经网络。图像激活策略可以使用任何类型的激活函数，例如ReLU或Sigmoid。损失函数包括自监督学习损失（例如对比学习损失）和跨模态一致性损失。群指数移动平均的衰减率是一个重要的超参数，需要根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

论文在Medical Vision Universe数据集上进行了预训练，该数据集包含10种模态的400多万张图像。在26个下游任务上的实验结果表明，DEX模型相比于现有的单体模型，在优化行为和可迁移性方面均有显著提升。具体性能数据和对比基线需要在论文中查找。

🎯 应用场景

该研究成果可应用于多模态医学影像分析，例如疾病诊断、病灶分割、预后预测等。通过利用不同模态医学影像的互补信息，可以提高诊断的准确性和效率，辅助医生进行临床决策。未来，该方法有望推广到其他多模态数据分析领域，例如多模态机器人感知、多模态视频理解等。

📄 摘要（原文）

Multi-modality medical vision (MV) foundation models (FM) are fundamentally challenged by pronounced Non-IID feature statistics across heterogeneous imaging modalities. Monolithic self-supervised optimization on such data induces conflicting gradients, driving representations to collapse toward modality-dominant shortcuts. This work reframes this failure as an imbalance between specialization and coordination in emergent modularity, and proposes Director-Experts (DEX), a modular network that explicitly regulates these dynamics in stacked modules. Each DEX module comprises a pool of experts, dynamically adapted by our image-wise activation strategy, autonomously specializing in modality-dominant statistics, together with a director, updated via our group exponential moving average, which distills multi-expert knowledge into a shared space for semantic integration across modalities, thus driving the emergence of modular representations. We curate a new benchmark, Medical Vision Universe, over 4 million images across 10 modalities, which provides a FM-level pre-training with the broadest coverage of distinct imaging modalities to our DEX. Extensive evaluations on 26 downstream tasks demonstrate improved optimization behavior and transferability, indicating DEX as a principled step toward general-purpose multi-modality medical AI. Our code and dataset will be opened at https://github.com/YutingHe-list/DEX.

Learning Emergent Modular Representations in Multi-modality Medical Vision Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理