UAM: A Unified Attention-Mamba Backbone of Multimodal Framework for Tumor Cell Classification
作者: Taixi Chen, Jingyun Chen, Nancy Guo
分类: cs.CV
发布日期: 2025-11-21
💡 一句话要点
提出UAM:一种用于肿瘤细胞分类的多模态统一注意力-Mamba骨干网络
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 肿瘤细胞分类 放射组学 多模态学习 Attention机制 Mamba架构 深度学习 细胞级分析
📋 核心要点
- 现有肿瘤分类方法主要集中在切片或病灶级别,忽略了细胞级放射组学特征的潜力,且缺乏针对放射组学数据的专用骨干网络。
- 论文提出统一注意力-Mamba (UAM) 骨干网络,灵活结合Attention和Mamba的优势,无需手动比例调整,提升编码能力。
- 实验结果表明,UAM在细胞分类和肿瘤分割任务上均超越了现有方法,细胞分类准确率提升至78%,肿瘤分割精度提升至80%。
📝 摘要(中文)
细胞级放射组学特征能够提供肿瘤表型的细粒度信息,并有潜力显著提高苏木精-伊红(H&E)图像的诊断准确性。通过捕捉微观形态和强度模式,这些特征支持更精确的肿瘤识别,并通过突出显示对病理学家复查具有诊断意义的细胞来提高AI的可解释性。然而,现有研究大多集中在切片级或病灶级肿瘤分类,细胞级放射组学分析在很大程度上未被探索。此外,目前还没有专门为放射组学数据设计的骨干网络。受Mamba架构在视觉和语言领域取得成功的启发,我们引入了一种统一注意力-Mamba (UAM)骨干网络,用于使用放射组学特征进行细胞级分类。与先前以固定比例集成Attention和Mamba模块的混合方法不同,我们的统一设计灵活地将它们的能力组合在一个有凝聚力的架构中,无需手动调整比例并提高了编码能力。我们开发了两种UAM变体,以全面评估这种统一结构的优势。在此骨干网络的基础上,我们进一步提出了一个多模态UAM框架,该框架共同执行细胞级分类和图像分割。实验结果表明,UAM在公共基准测试中跨越两项任务均实现了最先进的性能,超过了领先的基于图像的基础模型。它将细胞分类准确率从74%提高到78%(n=349,882个细胞),肿瘤分割精度从75%提高到80%(n=406个病灶)。这些发现突出了UAM作为放射组学驱动的癌症诊断的统一且可扩展的多模态基础的有效性和前景。
🔬 方法详解
问题定义:论文旨在解决细胞级别肿瘤分类问题,现有方法主要集中在切片或病灶级别,忽略了细胞级放射组学特征的细粒度信息。此外,现有方法缺乏专门为放射组学数据设计的骨干网络,无法充分利用放射组学特征进行细胞级分类。
核心思路:论文的核心思路是设计一种统一的Attention-Mamba (UAM) 骨干网络,该网络能够灵活地结合Attention机制和Mamba架构的优势,从而更好地提取和利用细胞级放射组学特征。通过统一的设计,避免了手动调整Attention和Mamba模块比例的繁琐过程,并提升了模型的编码能力。
技术框架:该多模态UAM框架包含两个主要任务:细胞级分类和图像分割。首先,使用UAM骨干网络提取细胞级放射组学特征。然后,将提取的特征用于细胞级分类任务,判断细胞是否为肿瘤细胞。同时,UAM框架还执行图像分割任务,将肿瘤区域从H&E图像中分割出来。两个任务共享UAM骨干网络,实现多模态信息的融合。
关键创新:论文最关键的创新点在于提出了统一的Attention-Mamba (UAM) 骨干网络。与以往将Attention和Mamba模块简单堆叠或以固定比例融合的混合方法不同,UAM将两者统一在一个架构中,实现了更灵活的特征提取和融合。这种统一的设计避免了手动调整模块比例的需要,并提升了模型的整体性能。
关键设计:UAM骨干网络包含两种变体,用于全面评估统一结构的优势。具体的网络结构细节(如Attention和Mamba模块的连接方式、参数设置等)在论文中未详细描述,属于未知信息。损失函数的设计也未明确说明,但推测可能使用了交叉熵损失函数进行细胞分类,并可能使用了Dice损失或交叉熵损失进行图像分割。
🖼️ 关键图片
📊 实验亮点
实验结果表明,UAM在细胞分类和肿瘤分割任务上均取得了最先进的性能。在细胞分类任务中,UAM将准确率从74%提高到78%(n=349,882个细胞)。在肿瘤分割任务中,UAM将精度从75%提高到80%(n=406个病灶)。这些结果表明UAM在处理细胞级放射组学数据方面具有显著优势,并超越了现有的图像基础模型。
🎯 应用场景
该研究成果可应用于计算机辅助诊断系统,辅助病理学家进行肿瘤细胞的识别和分类,提高诊断效率和准确性。通过细胞级放射组学特征的分析,可以更深入地了解肿瘤的生物学特性,为个性化治疗方案的制定提供依据。未来,该方法有望扩展到其他类型的癌症诊断和预后预测。
📄 摘要(原文)
Cell-level radiomics features provide fine-grained insights into tumor phenotypes and have the potential to significantly enhance diagnostic accuracy on hematoxylin and eosin (H&E) images. By capturing micro-level morphological and intensity patterns, these features support more precise tumor identification and improve AI interpretability by highlighting diagnostically relevant cells for pathologist review. However, most existing studies focus on slide-level or patch-level tumor classification, leaving cell-level radiomics analysis largely unexplored. Moreover, there is currently no dedicated backbone specifically designed for radiomics data. Inspired by the recent success of the Mamba architecture in vision and language domains, we introduce a Unified Attention-Mamba (UAM) backbone for cell-level classification using radiomics features. Unlike previous hybrid approaches that integrate Attention and Mamba modules in fixed proportions, our unified design flexibly combines their capabilities within a single cohesive architecture, eliminating the need for manual ratio tuning and improving encode capability. We develop two UAM variants to comprehensively evaluate the benefits of this unified structure. Building on this backbone, we further propose a multimodal UAM framework that jointly performs cell-level classification and image segmentation. Experimental results demonstrate that UAM achieves state-of-the-art performance across both tasks on public benchmarks, surpassing leading image-based foundation models. It improves cell classification accuracy from 74% to 78% ($n$=349,882 cells), and tumor segmentation precision from 75% to 80% ($n$=406 patches). These findings highlight the effectiveness and promise of UAM as a unified and extensible multimodal foundation for radiomics-driven cancer diagnosis.