Vision-Language Semantic Aggregation Leveraging Foundation Model for Generalizable Medical Image Segmentation

📄 arXiv: 2509.08570v1 📥 PDF

作者: Wenjun Yu, Yinchen Zhou, Jia-Xuan Jiang, Shubin Zeng, Yuee Li, Zhong Wang

分类: cs.CV

发布日期: 2025-09-10

备注: 29 pages and 8 figures


💡 一句话要点

提出基于EM聚合和文本引导解码的医学图像分割方法,提升模型泛化性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学图像分割 多模态融合 语义聚合 领域泛化 期望最大化 文本引导 深度学习

📋 核心要点

  1. 现有医学图像分割多模态模型性能不佳,主要原因是文本提示与视觉特征的语义差距和特征分散。
  2. 论文提出EM聚合机制和文本引导像素解码器,分别用于减少特征分散和弥合语义差距。
  3. 实验结果表明,该方法在心脏和眼底数据集上优于现有方法,提升了模型泛化能力。

📝 摘要(中文)

多模态模型在自然图像分割领域取得了显著成功,但应用于医学领域时性能往往不佳。通过深入研究,我们将这种性能差距归因于多模态融合的挑战,主要是抽象文本提示和细粒度医学视觉特征之间存在显著的语义差距,以及由此产生的特征分散。为了解决这些问题,我们从语义聚合的角度重新审视这个问题。具体来说,我们提出了一种期望最大化(EM)聚合机制和一个文本引导像素解码器。前者通过将特征动态聚类成紧凑的语义中心来减轻特征分散,从而增强跨模态对应关系。后者旨在通过利用领域不变的文本知识来有效指导深度视觉表示,从而弥合语义差距。这两个机制之间的协同作用显著提高了模型的泛化能力。在公共心脏和眼底数据集上的大量实验表明,我们的方法在多个领域泛化基准测试中始终优于现有的SOTA方法。

🔬 方法详解

问题定义:医学图像分割任务中,现有的多模态模型在自然图像上表现良好,但在医学图像上性能下降。主要痛点在于文本提示(例如疾病描述)与医学图像的细粒度视觉特征之间存在巨大的语义鸿沟,导致跨模态融合困难,特征分散,模型泛化能力不足。

核心思路:论文的核心思路是从语义聚合的角度出发,通过增强跨模态特征的对应关系和利用领域不变的文本知识来指导视觉表示,从而弥合语义差距,减少特征分散,提升模型的泛化能力。

技术框架:整体框架包含两个主要模块:EM聚合机制和文本引导像素解码器。首先,视觉和文本特征分别提取。然后,EM聚合机制动态地将视觉特征聚类成紧凑的语义中心,增强跨模态对应关系。接着,文本引导像素解码器利用文本知识指导视觉特征的解码过程,生成分割结果。

关键创新:最重要的技术创新点在于EM聚合机制和文本引导像素解码器的协同作用。EM聚合机制通过动态聚类减少特征分散,文本引导像素解码器利用文本知识弥合语义差距。这种结合方式能够更有效地利用多模态信息,提升模型的泛化能力。与现有方法相比,该方法更注重语义聚合,而非简单的特征拼接或注意力机制。

关键设计:EM聚合机制使用期望最大化算法动态更新语义中心,损失函数包括分割损失和聚类损失。文本引导像素解码器使用Transformer结构,将文本特征作为query,视觉特征作为key和value,进行跨模态注意力计算。具体的参数设置和网络结构细节在论文中有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在公共心脏和眼底数据集上取得了显著的性能提升,优于现有的SOTA方法。具体性能数据和提升幅度在论文中有详细描述(未知)。该方法在多个领域泛化基准测试中表现出色,证明了其良好的泛化能力。

🎯 应用场景

该研究成果可应用于多种医学图像分割任务,例如心脏、眼底、脑部等器官的分割,辅助医生进行疾病诊断和治疗方案制定。通过提升模型的泛化能力,该方法有望在不同医疗机构和不同类型的数据集上实现可靠的分割结果,具有重要的临床应用价值和潜在的商业前景。

📄 摘要(原文)

Multimodal models have achieved remarkable success in natural image segmentation, yet they often underperform when applied to the medical domain. Through extensive study, we attribute this performance gap to the challenges of multimodal fusion, primarily the significant semantic gap between abstract textual prompts and fine-grained medical visual features, as well as the resulting feature dispersion. To address these issues, we revisit the problem from the perspective of semantic aggregation. Specifically, we propose an Expectation-Maximization (EM) Aggregation mechanism and a Text-Guided Pixel Decoder. The former mitigates feature dispersion by dynamically clustering features into compact semantic centers to enhance cross-modal correspondence. The latter is designed to bridge the semantic gap by leveraging domain-invariant textual knowledge to effectively guide deep visual representations. The synergy between these two mechanisms significantly improves the model's generalization ability. Extensive experiments on public cardiac and fundus datasets demonstrate that our method consistently outperforms existing SOTA approaches across multiple domain generalization benchmarks.