MoME: Mixture of Visual Language Medical Experts for Medical Imaging Segmentation

📄 arXiv: 2510.26996v1 📥 PDF

作者: Arghavan Rezvani, Xiangyi Yan, Anthony T. Wu, Kun Han, Pooya Khosravi, Xiaohui Xie

分类: cs.CV

发布日期: 2025-10-30


💡 一句话要点

提出MoME:一种用于医学影像分割的视觉语言混合专家模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学影像分割 视觉语言模型 混合专家模型 多尺度特征 文本嵌入

📋 核心要点

  1. 医学图像分割任务面临挑战,现有方法难以有效融合视觉和文本信息,限制了模型性能。
  2. MoME通过引入视觉语言混合专家模型,利用多尺度视觉特征和文本嵌入实现动态专家选择,提升分割精度。
  3. 实验结果表明,MoME在包含3410个CT扫描的10个数据集上表现出色,证明了其在医学影像分割中的有效性。

📝 摘要(中文)

本研究提出了一种用于医学图像分割的视觉语言混合专家模型MoME。MoME将大型语言模型(LLM)中广泛使用的混合专家(MoE)范式应用于医学视觉-语言任务。该架构通过有效利用针对医学图像复杂性定制的多尺度视觉特征,并结合文本嵌入,实现了动态专家选择。这项工作探索了视觉-语言模型在该领域中的一种新颖集成。MoME利用包含3410个CT扫描的10个数据集的集合,在一个全面的医学影像分割基准上展示了强大的性能。我们的方法探索了用于医学影像的基础模型的集成,受益于MoE在通过结合文本信息来提高模型性能方面的既定功效。MoME在多个数据集上展示了具有竞争力的精度,探索了一种用于在医学图像分析中实现稳健结果的新颖架构。

🔬 方法详解

问题定义:医学图像分割是医学影像分析中的关键任务,旨在精确识别和分割图像中的目标区域(如器官、病灶等)。现有方法通常依赖于纯视觉信息,忽略了与图像相关的文本描述(如诊断报告、病理描述等)。如何有效融合视觉和文本信息,提升医学图像分割的精度和鲁棒性,是一个重要的研究问题。

核心思路:MoME的核心思路是将视觉和文本信息融合到混合专家模型中,利用多尺度视觉特征和文本嵌入来动态选择合适的专家进行分割。通过这种方式,模型可以根据输入图像和文本的特点,自适应地调整分割策略,从而提高分割精度。

技术框架:MoME的整体架构包括以下几个主要模块:1) 视觉特征提取模块:用于提取多尺度的视觉特征;2) 文本嵌入模块:用于将文本信息嵌入到向量空间;3) 混合专家模块:包含多个专家模型,每个专家模型负责处理特定类型的图像或文本;4) 门控网络:用于根据视觉特征和文本嵌入,动态选择合适的专家进行分割。

关键创新:MoME的关键创新在于将混合专家模型应用于医学视觉-语言任务,并设计了一种有效的专家选择机制。该机制可以根据输入图像和文本的特点,动态选择合适的专家进行分割,从而提高分割精度。此外,MoME还探索了多尺度视觉特征和文本嵌入的融合方法,进一步提升了模型性能。

关键设计:MoME的关键设计包括:1) 使用卷积神经网络提取多尺度视觉特征;2) 使用预训练的语言模型(如BERT)进行文本嵌入;3) 设计门控网络,根据视觉特征和文本嵌入,动态选择合适的专家;4) 使用交叉熵损失函数进行模型训练。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

MoME在包含3410个CT扫描的10个数据集上进行了评估,实验结果表明,MoME在多个数据集上取得了具有竞争力的精度,证明了其在医学影像分割任务中的有效性。具体性能数据和对比基线未在摘要中明确给出,属于未知信息。

🎯 应用场景

MoME在医学影像分割领域具有广泛的应用前景,可用于辅助医生进行疾病诊断、治疗计划制定和手术导航。通过提高医学图像分割的精度和效率,MoME可以减少医生的工作负担,提高诊断的准确性,并改善患者的治疗效果。未来,MoME有望应用于更多医学影像分析任务,如疾病预测、风险评估等。

📄 摘要(原文)

In this study, we propose MoME, a Mixture of Visual Language Medical Experts, for Medical Image Segmentation. MoME adapts the successful Mixture of Experts (MoE) paradigm, widely used in Large Language Models (LLMs), for medical vision-language tasks. The architecture enables dynamic expert selection by effectively utilizing multi-scale visual features tailored to the intricacies of medical imagery, enriched with textual embeddings. This work explores a novel integration of vision-language models for this domain. Utilizing an assembly of 10 datasets, encompassing 3,410 CT scans, MoME demonstrates strong performance on a comprehensive medical imaging segmentation benchmark. Our approach explores the integration of foundation models for medical imaging, benefiting from the established efficacy of MoE in boosting model performance by incorporating textual information. Demonstrating competitive precision across multiple datasets, MoME explores a novel architecture for achieving robust results in medical image analysis.