Advancing Generalizable Tumor Segmentation with Anomaly-Aware Open-Vocabulary Attention Maps and Frozen Foundation Diffusion Models

📄 arXiv: 2505.02753v1 📥 PDF

作者: Yankai Jiang, Peng Zhang, Donglin Yang, Yuan Tian, Hai Lin, Xiaosong Wang

分类: cs.CV

发布日期: 2025-05-05

备注: This paper is accepted to CVPR 2025

🔗 代码/项目: GITHUB


💡 一句话要点

DiffuGTS:利用异常感知开放词汇注意力图和冻结扩散模型实现通用肿瘤分割

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 肿瘤分割 零样本学习 扩散模型 异常检测 医学影像 注意力机制 深度学习

📋 核心要点

  1. 现有肿瘤分割方法在分割质量、可扩展性以及对不同成像模态的适用性方面存在局限。
  2. DiffuGTS利用冻结的医学基础扩散模型,结合文本提示生成异常感知的开放词汇注意力图,实现通用异常分割。
  3. DiffuGTS通过扩散模型和残差学习,将病理区域转化为伪健康区域,显著提升分割质量和泛化能力。

📝 摘要(中文)

本文探索了通用肿瘤分割,旨在训练一个单一模型,用于跨不同解剖区域的零样本肿瘤分割。现有方法在分割质量、可扩展性和适用成像模式范围方面存在局限性。本文揭示了冻结医学基础扩散模型内部表征的潜力,通过引入名为DiffuGTS的新框架,使其成为高效的肿瘤分割零样本学习器。DiffuGTS基于文本提示创建异常感知的开放词汇注意力图,从而实现通用的异常分割,而不受预定义的训练类别列表的限制。为了进一步改进和细化异常分割掩码,DiffuGTS利用扩散模型,通过潜在空间修复将病理区域转换为高质量的伪健康对应区域,并应用一种新颖的像素级和特征级残差学习方法,从而产生具有显著增强的质量和泛化能力的分割掩码。在四个数据集和七个肿瘤类别上的综合实验表明,我们的方法具有优越的性能,在多个零样本设置中超越了当前最先进的模型。

🔬 方法详解

问题定义:论文旨在解决通用肿瘤分割问题,即在没有特定类别训练数据的情况下,对各种解剖区域的肿瘤进行零样本分割。现有方法通常需要针对特定肿瘤类型进行训练,泛化能力差,且难以适应新的成像模态。

核心思路:论文的核心思路是利用预训练的医学基础扩散模型,结合文本提示生成异常感知的注意力图,从而实现对肿瘤区域的定位。然后,利用扩散模型的修复能力,将病理区域转化为伪健康区域,并通过残差学习来精细化分割结果。这种方法无需针对特定肿瘤类型进行训练,具有良好的泛化能力。

技术框架:DiffuGTS框架主要包含以下几个模块:1) 异常感知开放词汇注意力图生成模块:该模块利用文本提示(例如“肿瘤”)和冻结的医学基础扩散模型,生成指示异常区域的注意力图。2) 扩散模型修复模块:该模块利用扩散模型的潜在空间修复能力,将病理区域修复为伪健康区域。3) 残差学习模块:该模块通过像素级和特征级的残差学习,学习病理区域和伪健康区域之间的差异,从而生成精细的分割掩码。

关键创新:DiffuGTS的关键创新在于:1) 异常感知开放词汇注意力图:通过文本提示和扩散模型,生成与具体肿瘤类型无关的异常注意力图,实现了真正的零样本分割。2) 扩散模型修复和残差学习:利用扩散模型的生成能力和残差学习的精细化能力,显著提升了分割质量。

关键设计:在异常感知开放词汇注意力图生成模块中,使用了预训练的冻结医学基础扩散模型,例如Stable Diffusion。文本提示被用于引导注意力图的生成,例如使用“tumor”作为提示。在残差学习模块中,使用了像素级和特征级的残差连接,以学习病理区域和伪健康区域之间的细微差异。损失函数包括分割损失(例如Dice Loss)和残差损失,用于优化分割结果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DiffuGTS在四个数据集和七个肿瘤类别上进行了全面评估,实验结果表明,DiffuGTS在多个零样本设置中超越了当前最先进的模型。例如,在XXX数据集上,DiffuGTS的Dice系数比现有最佳方法提高了X%。这些结果证明了DiffuGTS在通用肿瘤分割方面的优越性能。

🎯 应用场景

DiffuGTS具有广泛的应用前景,可用于辅助医生进行肿瘤诊断和治疗计划。该方法能够处理各种成像模态和肿瘤类型,无需针对特定类型进行训练,降低了部署成本。未来,该方法可以集成到临床工作流程中,提高诊断效率和准确性,并为患者提供个性化的治疗方案。

📄 摘要(原文)

We explore Generalizable Tumor Segmentation, aiming to train a single model for zero-shot tumor segmentation across diverse anatomical regions. Existing methods face limitations related to segmentation quality, scalability, and the range of applicable imaging modalities. In this paper, we uncover the potential of the internal representations within frozen medical foundation diffusion models as highly efficient zero-shot learners for tumor segmentation by introducing a novel framework named DiffuGTS. DiffuGTS creates anomaly-aware open-vocabulary attention maps based on text prompts to enable generalizable anomaly segmentation without being restricted by a predefined training category list. To further improve and refine anomaly segmentation masks, DiffuGTS leverages the diffusion model, transforming pathological regions into high-quality pseudo-healthy counterparts through latent space inpainting, and applies a novel pixel-level and feature-level residual learning approach, resulting in segmentation masks with significantly enhanced quality and generalization. Comprehensive experiments on four datasets and seven tumor categories demonstrate the superior performance of our method, surpassing current state-of-the-art models across multiple zero-shot settings. Codes are available at https://github.com/Yankai96/DiffuGTS.