Context-Gated Cross-Modal Perception with Visual Mamba for PET-CT Lung Tumor Segmentation

📄 arXiv: 2510.27508v1 📥 PDF

作者: Elena Mulero Ayllón, Linlin Shen, Pierangelo Veltri, Fabrizia Gelardi, Arturo Chiti, Paolo Soda, Matteo Tortora

分类: cs.CV, cs.AI

发布日期: 2025-10-31

🔗 代码/项目: GITHUB


💡 一句话要点

提出vMambaX,利用上下文门控跨模态感知和视觉Mamba进行PET-CT肺肿瘤分割

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 肺肿瘤分割 PET-CT 多模态融合 视觉Mamba 上下文门控

📋 核心要点

  1. 现有肺肿瘤分割方法难以有效融合PET和CT图像中的解剖和功能信息。
  2. vMambaX通过上下文门控跨模态感知模块,自适应增强模态间特征交互,抑制噪声。
  3. 在PCLT20K数据集上,vMambaX优于基线模型,同时保持较低的计算复杂度。

📝 摘要(中文)

精确的肺肿瘤分割对于改善诊断和治疗计划至关重要,而有效结合PET和CT的解剖和功能信息仍然是一个主要的挑战。本研究提出vMambaX,一个轻量级多模态框架,通过上下文门控跨模态感知模块(CGM)整合PET和CT扫描图像。vMambaX建立在视觉Mamba架构之上,自适应地增强模态间特征交互,强调信息丰富的区域,同时抑制噪声。在PCLT20K数据集上的评估表明,该模型优于基线模型,同时保持较低的计算复杂度。这些结果突出了自适应跨模态门控对于多模态肿瘤分割的有效性,并证明了vMambaX作为一种高效且可扩展的框架在高级肺癌分析中的潜力。代码可在https://github.com/arco-group/vMambaX获取。

🔬 方法详解

问题定义:论文旨在解决肺部肿瘤在PET-CT图像上的精确分割问题。现有方法在融合PET和CT两种模态的信息时,往往难以有效区分肿瘤区域和正常组织,并且容易受到噪声干扰,导致分割精度不高。此外,计算复杂度也是一个挑战,尤其是在处理大规模数据集时。

核心思路:论文的核心思路是利用Visual Mamba架构的强大序列建模能力,并引入上下文门控机制,实现PET和CT图像特征的自适应融合。通过上下文门控,模型能够动态地调整不同模态特征的权重,从而更加关注信息丰富的区域,抑制噪声,提高分割精度。

技术框架:vMambaX框架主要包括以下几个部分:首先,分别对PET和CT图像进行预处理和特征提取。然后,通过上下文门控跨模态感知模块(CGM)将两种模态的特征进行融合。CGM模块利用Visual Mamba架构进行序列建模,并根据上下文信息动态调整不同模态特征的权重。最后,通过分割头预测肿瘤区域。

关键创新:论文的关键创新在于提出了上下文门控跨模态感知模块(CGM),该模块能够自适应地增强模态间特征交互,强调信息丰富的区域,同时抑制噪声。与传统的特征融合方法相比,CGM模块能够更好地利用PET和CT图像的互补信息,提高分割精度。此外,使用Visual Mamba架构也提高了模型的效率和可扩展性。

关键设计:CGM模块的关键设计包括:1) 使用Visual Mamba作为序列建模器,捕捉模态间的长程依赖关系;2) 引入上下文门控机制,根据上下文信息动态调整不同模态特征的权重;3) 使用残差连接和归一化层,提高模型的稳定性和泛化能力。具体的参数设置和损失函数等细节在论文中进行了详细描述。

📊 实验亮点

vMambaX在PCLT20K数据集上进行了评估,实验结果表明,该模型在分割精度上优于基线模型,同时保持较低的计算复杂度。具体而言,vMambaX在Dice系数等指标上取得了显著提升,并且在推理速度方面也具有优势。这些结果表明,vMambaX是一种高效且有效的肺肿瘤分割方法。

🎯 应用场景

该研究成果可应用于肺癌的计算机辅助诊断、治疗计划制定和疗效评估。通过精确的肿瘤分割,医生可以更准确地评估肿瘤的大小、形状和位置,从而制定更有效的治疗方案。此外,该技术还可以用于监测肿瘤的生长和转移,评估治疗效果,并为个性化治疗提供依据。未来,该技术有望推广到其他类型的肿瘤分割任务中。

📄 摘要(原文)

Accurate lung tumor segmentation is vital for improving diagnosis and treatment planning, and effectively combining anatomical and functional information from PET and CT remains a major challenge. In this study, we propose vMambaX, a lightweight multimodal framework integrating PET and CT scan images through a Context-Gated Cross-Modal Perception Module (CGM). Built on the Visual Mamba architecture, vMambaX adaptively enhances inter-modality feature interaction, emphasizing informative regions while suppressing noise. Evaluated on the PCLT20K dataset, the model outperforms baseline models while maintaining lower computational complexity. These results highlight the effectiveness of adaptive cross-modal gating for multimodal tumor segmentation and demonstrate the potential of vMambaX as an efficient and scalable framework for advanced lung cancer analysis. The code is available at https://github.com/arco-group/vMambaX.