Intelligent Communication Mixture-of-Experts Boosted-Medical Image Segmentation Foundation Model
作者: Xinwei Zhang, Hu Chen, Zhe Yuan, Sukun Tian, Peng Feng
分类: cs.CV, cs.AI
发布日期: 2025-10-20
💡 一句话要点
提出IC-MoE模型,通过智能通信混合专家网络提升医学图像分割基础模型性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学图像分割 混合专家网络 对比学习 深度学习 基础模型
📋 核心要点
- 现有医学图像分割基础模型的微调方法在高层特征表示和预训练权重结构保持方面存在不足。
- IC-MoE模型通过构建多类型专家网络和像素概率自适应投票策略,增强高层特征表示并保持权重结构完整性。
- 实验表明,IC-MoE在多个医学图像分割数据集上超越了现有SOTA模型,并展现出良好的泛化能力。
📝 摘要(中文)
医学图像分割的基础模型已经取得了显著的性能。对自然图像分割基础模型进行自适应微调对于医学图像分割任务至关重要。然而,现有的微调方法存在一些局限性:1) 高级特征的表示不足;2) 微调过程破坏了预训练权重的结构完整性。受这些关键问题的启发,我们提出了一种智能通信混合专家增强医学图像分割基础模型,名为IC-MoE,包含两个方面的思想:1) 我们构建了基本专家、语义专家和自适应专家。此外,我们实现了一种像素概率自适应投票策略,该策略能够通过标签一致性和负载平衡来实现专家选择和融合。这种方法初步增强了高级特征的表示能力,同时保留了预训练权重的结构完整性。2) 我们提出了一种语义引导的对比学习方法,以解决对比学习中弱监督的问题。该方法进一步增强了高级特征的表示能力,同时保留了预训练权重的结构完整性。在三个公共医学图像分割数据集上进行的大量实验表明,IC-MoE优于其他SOTA模型。因此,所提出的IC-MoE有效地利用高级特征和预训练结构完整性来补充基础医学图像分割模型。我们还验证了IC-MoE在各种医学图像分割场景中的优越泛化能力。
🔬 方法详解
问题定义:论文旨在解决医学图像分割基础模型微调过程中,高层语义特征表示不足以及预训练权重结构易被破坏的问题。现有方法难以有效提取和利用医学图像中的复杂语义信息,并且在微调过程中容易过度调整预训练权重,导致模型性能下降。
核心思路:论文的核心思路是构建一个智能通信的混合专家网络(IC-MoE),该网络包含多种类型的专家,能够分别学习不同层次的特征表示。通过像素概率自适应投票策略,动态地选择和融合不同专家的输出,从而增强模型对高层语义特征的表示能力,同时保持预训练权重的结构完整性。
技术框架:IC-MoE模型主要包含以下几个模块:1) 基本专家:负责提取图像的基础特征。2) 语义专家:专注于学习图像的语义信息。3) 自适应专家:根据输入图像的特点,动态调整特征提取策略。4) 像素概率自适应投票:根据标签一致性和负载均衡原则,选择和融合不同专家的输出。5) 语义引导对比学习:利用语义信息指导对比学习过程,进一步增强高层特征的表示能力。
关键创新:论文的关键创新在于提出了智能通信的混合专家网络结构,以及像素概率自适应投票策略。这种结构能够有效地融合不同专家的知识,增强模型对高层语义特征的表示能力,同时保持预训练权重的结构完整性。此外,语义引导的对比学习方法也进一步提升了模型的性能。
关键设计:在专家网络的设计上,论文采用了不同类型的卷积神经网络结构,以适应不同层次特征的提取需求。像素概率自适应投票策略通过计算每个像素属于不同类别的概率,并根据标签一致性和负载均衡原则,动态地调整不同专家的权重。语义引导的对比学习方法则利用语义信息构建正负样本对,并采用InfoNCE损失函数进行优化。
📊 实验亮点
IC-MoE模型在三个公共医学图像分割数据集上取得了显著的性能提升,超越了现有的SOTA模型。具体而言,在XXX数据集上,Dice系数提升了X%,在YYY数据集上,IoU提升了Y%。实验结果表明,IC-MoE模型能够有效地提取和利用医学图像中的高层语义特征,并具有良好的泛化能力。
🎯 应用场景
该研究成果可应用于多种医学图像分割任务,例如肿瘤分割、器官分割等。通过提升分割精度和泛化能力,有助于医生更准确地诊断病情,制定更有效的治疗方案,并最终改善患者的预后。未来,该模型有望集成到医疗影像分析系统中,实现智能化辅助诊断。
📄 摘要(原文)
Foundation models for medical image segmentation have achieved remarkable performance. Adaptive fine-tuning of natural image segmentation foundation models is crucial for medical image segmentation tasks. However, some limitations exist in existing fine-tuning methods: 1) insufficient representation of high-level features and 2) the fine-tuning process disrupts the structural integrity of pretrained weights. Inspired by these critical problems, we propose an intelligent communication mixture-of-experts boosted-medical image segmentation foundation model, named IC-MoE, with twofold ideas: 1) We construct basic experts, semantic experts, and adaptive experts. Moreover, we implement a pixel probability adaptive voting strategy, which enables expert selection and fusion through label consistency and load balancing. This approach preliminarily enhances the representation capability of high-level features while preserving the structural integrity of pretrained weights. 2) We propose a semantic-guided contrastive learning method to address the issue of weak supervision in contrastive learning. This method further enhances the representation capability of high-level features while preserving the structural integrity of pretrained weights. Extensive experiments across three public medical image segmentation datasets demonstrate that the IC-MoE outperforms other SOTA models. Consequently, the proposed IC-MoE effectively supplements foundational medical image segmentation models with high-level features and pretrained structural integrity. We also validate the superior generalizability of the IC-MoE across diverse medical image segmentation scenarios.