Multimodal Slice Interaction Network Enhanced by Transfer Learning for Precise Segmentation of Internal Gross Tumor Volume in Lung Cancer PET/CT Imaging

📄 arXiv: 2509.22841v1 📥 PDF

作者: Yi Luo, Yike Guo, Hamed Hooshangnejad, Rui Zhang, Xue Feng, Quan Chen, Wil Ngwa, Kai Ding

分类: cs.CV, cs.AI

发布日期: 2025-09-26

备注: 11 pages, 5 figures


💡 一句话要点

提出基于迁移学习的多模态切片交互网络,用于肺癌PET/CT图像IGTV精确分割

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 肺癌分割 PET/CT图像 内部肿瘤体积(IGTV) 迁移学习 多模态融合 切片交互模块 放射治疗计划

📋 核心要点

  1. 现有IGTV数据集稀缺,且PET信号在肿瘤边界衰减,导致肺癌PET/CT图像IGTV精确分割困难。
  2. 提出基于迁移学习的多模态交互感知网络,预训练于GTV数据集,微调于IGTV数据集,提升分割精度。
  3. 引入切片交互模块(SIM),建模切片间关系,克服IGTV外围切片PET信号弱的问题,显著提升分割性能。

📝 摘要(中文)

肺癌是全球癌症相关死亡的主要原因。精确勾画PET/CT图像中的内部肿瘤体积(IGTV)对于肺癌等移动肿瘤的最佳放射治疗至关重要,但受到带注释的IGTV数据集有限以及肿瘤边界处PET信号强度衰减的阻碍。本研究提出了一种基于迁移学习的方法,该方法利用具有MAMBA的多模态交互感知网络,该网络在大量的肿瘤体积(GTV)数据集上进行预训练,然后在私有的IGTV队列上进行微调。该队列构成了肺癌统一跨模态成像数据集(LUCID)的PET/CT子集。为了进一步解决IGTV外围切片中PET强度较弱的挑战,我们在2.5D分割框架内引入了一个切片交互模块(SIM),以有效地建模切片间关系。我们提出的模块集成了通道和空间注意力分支与深度卷积,从而能够更稳健地学习切片到切片的依赖关系,从而提高整体分割性能。全面的实验评估表明,我们的方法在私有IGTV数据集上实现了0.609的Dice系数,大大超过了0.385的传统基线分数。这项工作突出了迁移学习的潜力,结合先进的多模态技术和SIM,以提高IGTV分割的可靠性和临床相关性,用于肺癌放射治疗计划。

🔬 方法详解

问题定义:论文旨在解决肺癌PET/CT图像中内部肿瘤体积(IGTV)的精确分割问题。现有方法面临的痛点在于:一是标注的IGTV数据集非常有限,二是肿瘤边界处的PET信号强度衰减,导致分割精度不高。

核心思路:论文的核心思路是利用迁移学习,将从大量GTV数据集中学到的知识迁移到IGTV分割任务中。同时,为了解决IGTV外围切片PET信号弱的问题,引入切片交互模块(SIM)来建模切片间的关系,从而提高分割的鲁棒性。

技术框架:整体框架是一个2.5D分割框架,主要包含以下几个模块:1)预训练的具有MAMBA的多模态交互感知网络,用于提取图像特征;2)切片交互模块(SIM),用于建模切片间的关系;3)分割头,用于预测IGTV的分割结果。整个流程是先在GTV数据集上预训练网络,然后在IGTV数据集上进行微调。

关键创新:论文的关键创新在于:1)将迁移学习应用于IGTV分割任务,有效利用了大量的GTV数据集;2)提出了切片交互模块(SIM),通过集成通道和空间注意力机制以及深度卷积,能够更有效地学习切片间的依赖关系,从而提高分割性能。

关键设计:SIM模块的关键设计包括:1)使用通道和空间注意力分支,分别关注不同通道和空间位置的信息;2)使用深度卷积来降低计算复杂度,同时保持感受野的大小;3)将SIM模块集成到2.5D分割框架中,充分利用了相邻切片的信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在私有IGTV数据集上实现了0.609的Dice系数,显著优于传统基线方法(Dice系数为0.385)。这表明该方法能够有效提高IGTV分割的精度,具有重要的临床意义。

🎯 应用场景

该研究成果可应用于肺癌放射治疗计划,通过更精确的IGTV分割,提高放射治疗的准确性和有效性,减少对周围健康组织的损伤。此外,该方法也可推广到其他肿瘤的分割任务中,具有重要的临床应用价值和潜力。

📄 摘要(原文)

Lung cancer remains the leading cause of cancerrelated deaths globally. Accurate delineation of internal gross tumor volume (IGTV) in PET/CT imaging is pivotal for optimal radiation therapy in mobile tumors such as lung cancer to account for tumor motion, yet is hindered by the limited availability of annotated IGTV datasets and attenuated PET signal intensity at tumor boundaries. In this study, we present a transfer learningbased methodology utilizing a multimodal interactive perception network with MAMBA, pre-trained on extensive gross tumor volume (GTV) datasets and subsequently fine-tuned on a private IGTV cohort. This cohort constitutes the PET/CT subset of the Lung-cancer Unified Cross-modal Imaging Dataset (LUCID). To further address the challenge of weak PET intensities in IGTV peripheral slices, we introduce a slice interaction module (SIM) within a 2.5D segmentation framework to effectively model inter-slice relationships. Our proposed module integrates channel and spatial attention branches with depthwise convolutions, enabling more robust learning of slice-to-slice dependencies and thereby improving overall segmentation performance. A comprehensive experimental evaluation demonstrates that our approach achieves a Dice of 0.609 on the private IGTV dataset, substantially surpassing the conventional baseline score of 0.385. This work highlights the potential of transfer learning, coupled with advanced multimodal techniques and a SIM to enhance the reliability and clinical relevance of IGTV segmentation for lung cancer radiation therapy planning.