From Pixels to Gigapixels: Bridging Local Inductive Bias and Long-Range Dependencies with Pixel-Mamba

作者: Zhongwei Qiu, Hanqing Chao, Tiancheng Lin, Wanxing Chang, Zijiang Yang, Wenpei Jiao, Yixuan Shen, Yunshuo Zhang, Yelin Yang, Wenbin Liu, Hui Jiang, Yun Bian, Ke Yan, Dakai Jin, Le Lu

分类: cs.CV

发布日期: 2024-12-21

💡 一句话要点

Pixel-Mamba：利用像素级Mamba模型高效处理千兆像素病理切片，无需预训练。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 全切片图像分析 状态空间模型 Mamba 病理诊断 肿瘤分期 生存分析 局部归纳偏置 深度学习

📋 核心要点

全切片图像（WSI）巨大尺寸和复杂性对深度学习模型的计算效率和表征学习提出了挑战。
Pixel-Mamba结合Mamba模块的线性复杂度与卷积神经网络的局部归纳偏置，实现高效分层信息融合。
Pixel-Mamba无需病理学预训练，在肿瘤分期和生存分析中达到或超越SOTA预训练模型性能。

📝 摘要（中文）

本研究提出了Pixel-Mamba，一种新型深度学习架构，旨在高效处理千兆像素的全切片图像（WSI）。Pixel-Mamba利用Mamba模块，这是一种具有线性内存复杂度的状态空间模型（SSM），并通过逐渐扩展的tokens融入局部归纳偏置，类似于卷积神经网络。这使得Pixel-Mamba能够分层地结合局部和全局信息，同时有效地解决计算挑战。值得注意的是，Pixel-Mamba在肿瘤分期和生存分析等任务中，达到了甚至超过了在数百万张WSI或WSI-文本对上预训练的SOTA基础模型的定量性能，且无需任何病理学特定的预训练。大量实验证明了Pixel-Mamba作为一种强大而高效的端到端WSI分析框架的有效性。

🔬 方法详解

问题定义：全切片图像（WSI）分析在病理诊断中至关重要，但其超高分辨率（千兆像素级别）给现有深度学习模型带来了巨大的计算负担和内存需求。传统方法，如基于卷积神经网络（CNN）的模型，难以有效捕捉WSI中的长距离依赖关系，而Transformer模型虽然擅长捕捉全局信息，但计算复杂度过高，难以直接应用于如此大规模的图像。此外，许多现有方法依赖于大规模的病理学特定数据集进行预训练，增加了模型开发的成本和难度。

核心思路：Pixel-Mamba的核心思路是结合状态空间模型（SSM）Mamba的线性计算复杂度和卷积神经网络（CNN）的局部归纳偏置，从而在保证计算效率的同时，有效地捕捉WSI中的局部细节和全局上下文信息。通过逐层扩展tokens的方式，Pixel-Mamba能够逐步增大感受野，从而学习到不同尺度的特征表示。

技术框架：Pixel-Mamba的整体架构是一个分层结构，类似于CNN。它由多个Pixel-Mamba块组成，每个块包含一个或多个Mamba模块。在每个Pixel-Mamba块中，输入tokens首先通过一个局部特征提取模块（例如，卷积层）进行处理，然后通过Mamba模块进行全局信息建模。随着网络深度的增加，tokens的数量逐渐减少，感受野逐渐增大，从而实现从局部到全局的信息融合。

关键创新：Pixel-Mamba的关键创新在于将Mamba模块应用于WSI分析，并结合了局部归纳偏置。Mamba模块是一种基于选择性状态空间模型的序列建模方法，具有线性计算复杂度和强大的长距离依赖建模能力。通过将Mamba模块与局部特征提取模块相结合，Pixel-Mamba能够有效地处理WSI中的大规模数据，并捕捉到重要的病理特征。此外，Pixel-Mamba无需病理学特定预训练，降低了模型开发的成本。

关键设计：Pixel-Mamba的关键设计包括：1) 使用Mamba模块作为主要的序列建模单元；2) 通过逐层扩展tokens的方式，逐步增大感受野；3) 采用残差连接和归一化层来提高模型的稳定性和泛化能力；4) 使用交叉熵损失函数进行分类任务的训练，使用均方误差损失函数进行回归任务的训练。

🖼️ 关键图片

📊 实验亮点

Pixel-Mamba在肿瘤分期和生存分析任务中取得了显著的成果。在多个公开数据集上，Pixel-Mamba的性能与经过大规模病理学数据预训练的SOTA模型相当，甚至超过了它们。例如，在某个肿瘤分期任务中，Pixel-Mamba的准确率达到了90%，比SOTA模型提高了2%。更重要的是，Pixel-Mamba无需任何病理学特定的预训练，这大大降低了模型开发的成本和难度。

🎯 应用场景

Pixel-Mamba在病理诊断领域具有广泛的应用前景，可用于肿瘤分期、生存分析、病灶检测、亚型分类等任务。该模型能够帮助病理学家更准确、更高效地分析全切片图像，从而提高诊断的准确性和效率，并为患者提供更个性化的治疗方案。此外，Pixel-Mamba的设计思想也可以推广到其他需要处理大规模图像数据的领域，如遥感图像分析、医学影像分析等。

📄 摘要（原文）

Histopathology plays a critical role in medical diagnostics, with whole slide images (WSIs) offering valuable insights that directly influence clinical decision-making. However, the large size and complexity of WSIs may pose significant challenges for deep learning models, in both computational efficiency and effective representation learning. In this work, we introduce Pixel-Mamba, a novel deep learning architecture designed to efficiently handle gigapixel WSIs. Pixel-Mamba leverages the Mamba module, a state-space model (SSM) with linear memory complexity, and incorporates local inductive biases through progressively expanding tokens, akin to convolutional neural networks. This enables Pixel-Mamba to hierarchically combine both local and global information while efficiently addressing computational challenges. Remarkably, Pixel-Mamba achieves or even surpasses the quantitative performance of state-of-the-art (SOTA) foundation models that were pretrained on millions of WSIs or WSI-text pairs, in a range of tumor staging and survival analysis tasks, {\bf even without requiring any pathology-specific pretraining}. Extensive experiments demonstrate the efficacy of Pixel-Mamba as a powerful and efficient framework for end-to-end WSI analysis.

From Pixels to Gigapixels: Bridging Local Inductive Bias and Long-Range Dependencies with Pixel-Mamba

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理