Concept-to-Pixel: Prompt-Free Universal Medical Image Segmentation

📄 arXiv: 2603.17746v1 📥 PDF

作者: Haoyun Chen, Fenghe Tang, Wenxin Ma, Shaohua Kevin Zhou

分类: cs.CV

发布日期: 2026-03-18

备注: 32 pages, code is available at: https://github.com/Yundi218/Concept-to-Pixel

🔗 代码/项目: GITHUB


💡 一句话要点

提出Concept-to-Pixel框架以解决医学图像分割的自动化与鲁棒性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学图像分割 多模态学习 深度学习 几何约束 语义表示 自动化 鲁棒性

📋 核心要点

  1. 现有医学图像分割方法依赖手动提示或参考图像,限制了自动化和鲁棒性。
  2. 提出的C2P框架通过分离几何和语义表示,利用多模态大语言模型生成可学习的标记,提升了分割精度。
  3. 在八个数据集的实验中,C2P展示了强大的泛化能力,尤其在零样本任务和跨模态转移中表现优异。

📝 摘要(中文)

通用医学图像分割旨在利用单一基础模型处理多种成像模式下的多样任务。然而,现有方法往往依赖手动视觉提示或检索的参考图像,限制了其自动化和鲁棒性。此外,跨模态的简单联合训练常常无法有效应对大的领域转移。为了解决这些问题,本文提出了一种新颖的无提示通用分割框架Concept-to-Pixel (C2P)。C2P将解剖知识明确分为几何和语义两部分,利用多模态大语言模型提炼高层次医学概念为可学习的语义标记,并引入显式监督的几何标记以强制执行通用的物理和结构约束。这些分离的标记与图像特征深度交互,生成特定输入的动态内核以实现精确的掩膜预测。通过在八个多样数据集上的广泛实验,证明了我们联合训练方法的显著优越性。

🔬 方法详解

问题定义:本文旨在解决现有医学图像分割方法对手动提示的依赖以及跨模态训练中的领域转移问题。现有方法在自动化和鲁棒性方面存在明显不足。

核心思路:C2P框架通过将解剖知识分为几何和语义两部分,利用多模态大语言模型提炼医学概念,生成可学习的语义标记,并引入几何标记以强制执行结构约束。

技术框架:C2P的整体架构包括两个主要模块:语义标记生成模块和几何约束模块。语义标记通过多模态大语言模型提炼,而几何约束则通过显式监督进行引导。

关键创新:C2P的主要创新在于无提示的设计和几何约束的引入,使得模型在处理不同成像模式时具备更强的适应性和鲁棒性。与传统方法相比,C2P在处理领域转移时表现更佳。

关键设计:在模型设计中,采用了动态内核生成机制,以便根据输入图像特征生成特定的掩膜预测。此外,损失函数设计上结合了语义和几何约束,以确保模型的准确性和稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在实验中,C2P框架在八个多样数据集上表现出显著的优越性,尤其在零样本任务和跨模态转移中,模型的泛化能力得到了充分验证。与传统单模型方法相比,C2P在分割精度上提升了XX%,展示了其强大的应用潜力。

🎯 应用场景

该研究的潜在应用领域包括医学影像分析、疾病诊断辅助系统以及临床决策支持。通过提升医学图像分割的自动化和鲁棒性,C2P框架能够为医疗工作者提供更为精准的工具,进而提高诊断效率和准确性,具有重要的实际价值和未来影响。

📄 摘要(原文)

Universal medical image segmentation seeks to use a single foundational model to handle diverse tasks across multiple imaging modalities. However, existing approaches often rely heavily on manual visual prompts or retrieved reference images, which limits their automation and robustness. In addition, naive joint training across modalities often fails to address large domain shifts. To address these limitations, we propose Concept-to-Pixel (C2P), a novel prompt-free universal segmentation framework. C2P explicitly separates anatomical knowledge into two components: Geometric and Semantic representations. It leverages Multimodal Large Language Models (MLLMs) to distill abstract, high-level medical concepts into learnable Semantic Tokens and introduces explicitly supervised Geometric Tokens to enforce universal physical and structural constraints. These disentangled tokens interact deeply with image features to generate input-specific dynamic kernels for precise mask prediction. Furthermore, we introduce a Geometry-Aware Inference Consensus mechanism, which utilizes the model's predicted geometric constraints to assess prediction reliability and suppress outliers. Extensive experiments and analysis on a unified benchmark comprising eight diverse datasets across seven modalities demonstrate the significant superiority of our jointly trained approach, compared to universe- or single-model approaches. Remarkably, our unified model demonstrates strong generalization, achieving impressive results not only on zero-shot tasks involving unseen cases but also in cross-modal transfers across similar tasks. Code is available at: https://github.com/Yundi218/Concept-to-Pixel