ReconMIL: Synergizing Latent Space Reconstruction with Bi-Stream Mamba for Whole Slide Image Analysis

📄 arXiv: 2603.19925v1 📥 PDF

作者: Lubin Gan, Jing Zhang, Heng Zhang, Xin Di, Zhifeng Wang, Wenke Huang, Xiaoyan Sun

分类: eess.IV, cs.CV

发布日期: 2026-03-20


💡 一句话要点

ReconMIL:结合潜在空间重构与双流Mamba用于病理切片图像分析

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 病理切片图像分析 多示例学习 潜在空间重构 双流网络 Mamba 领域自适应 全局-局部特征融合

📋 核心要点

  1. 现有MIL方法在WSI分析中,直接使用通用特征导致领域差异,影响诊断性能。
  2. ReconMIL通过潜在空间重构模块和双流架构,自适应地提取任务相关特征并平衡全局上下文和局部细节。
  3. 实验结果表明,ReconMIL在多个诊断和生存预测任务中超越现有方法,有效定位诊断区域。

📝 摘要(中文)

全切片图像(WSI)分析严重依赖于多示例学习(MIL)。虽然最近的方法受益于大规模基础模型和先进的序列建模来捕获长程依赖关系,但它们仍然面临两个关键问题。首先,直接应用冻结的、与任务无关的特征通常会导致次优的可分离性,这是由于与特定组织学任务的领域差距造成的。其次,仅仅依靠全局聚合器会导致过度平滑,其中稀疏但关键的诊断信号被主要的背景上下文所掩盖。在本文中,我们提出了ReconMIL,这是一个新颖的框架,旨在弥合这种领域差距,并平衡全局-局部特征聚合。我们的方法引入了一个潜在空间重构模块,该模块自适应地将通用特征投影到一个紧凑的、特定于任务的流形中,从而改善边界描绘。为了防止信息稀释,我们开发了一种双流架构,结合了基于Mamba的全局流,用于上下文先验,以及基于CNN的局部流,用于保留细微的形态异常。一种尺度自适应选择机制动态地融合这两个流,确定何时依赖于整体架构与局部显著性。跨多个诊断和生存预测基准的评估表明,ReconMIL始终优于当前最先进的方法,有效地定位细粒度的诊断区域,同时抑制背景噪声。可视化结果证实了该模型通过有效平衡全局结构和局部粒度来定位诊断区域的卓越能力。

🔬 方法详解

问题定义:全切片图像(WSI)分析中的多示例学习(MIL)方法,面临着两个主要问题:一是直接使用预训练的、与任务无关的特征,由于领域差异,导致特征区分度不高;二是过度依赖全局聚合,使得关键的局部诊断信息被背景噪声淹没。现有方法难以有效平衡全局上下文和局部细节,影响诊断精度。

核心思路:ReconMIL的核心思路是弥合通用特征与特定组织学任务之间的领域差距,并同时保留全局上下文信息和局部细粒度特征。通过潜在空间重构,将通用特征投影到任务相关的流形中,增强特征的区分性。同时,采用双流架构,分别处理全局上下文和局部细节,避免信息稀释。

技术框架:ReconMIL框架包含以下几个主要模块:1) 潜在空间重构模块:将通用特征投影到特定任务的潜在空间,增强特征的判别性。2) 双流架构:包含一个基于Mamba的全局流和一个基于CNN的局部流,分别捕获全局上下文和局部细节。3) 尺度自适应选择机制:动态地融合全局流和局部流的特征,根据图像区域的特性,自适应地选择合适的特征来源。整体流程是:输入WSI图像,提取通用特征,通过潜在空间重构模块得到任务相关的特征,然后分别输入到全局流和局部流中,最后通过尺度自适应选择机制融合两个流的特征,进行诊断或生存预测。

关键创新:ReconMIL的关键创新在于:1) 提出了潜在空间重构模块,自适应地将通用特征投影到任务相关的流形中,有效弥合了领域差距。2) 设计了双流架构,分别处理全局上下文和局部细节,避免了信息稀释。3) 引入了尺度自适应选择机制,动态地融合全局流和局部流的特征,根据图像区域的特性,自适应地选择合适的特征来源。与现有方法相比,ReconMIL能够更好地平衡全局上下文和局部细节,提高诊断精度。

关键设计:潜在空间重构模块的具体实现方式未知,可能使用了自编码器或其他流形学习方法。Mamba流的具体配置未知,但应该针对WSI图像的特点进行了优化。CNN局部流的具体结构未知,但应该能够有效地提取局部形态特征。尺度自适应选择机制的具体实现方式未知,可能使用了注意力机制或其他选择策略。损失函数的设计未知,但应该能够同时优化潜在空间重构、全局上下文和局部细节的提取。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

ReconMIL在多个诊断和生存预测基准测试中,均取得了优于当前最先进方法的结果。具体性能数据未知,但摘要强调了ReconMIL能够有效地定位细粒度的诊断区域,同时抑制背景噪声。可视化结果也证实了ReconMIL在平衡全局结构和局部粒度方面的卓越能力,表明其在病理图像分析方面具有显著优势。

🎯 应用场景

ReconMIL在病理诊断、药物研发和精准医疗等领域具有广泛的应用前景。它可以辅助病理医生进行更准确、更高效的疾病诊断,例如癌症的早期筛查和分型。此外,ReconMIL还可以用于预测患者的生存期,为临床治疗方案的制定提供参考。该研究的成果有助于推动病理图像分析的自动化和智能化,提高医疗效率和质量。

📄 摘要(原文)

Whole slide image (WSI) analysis heavily relies on multiple instance learning (MIL). While recent methods benefit from large-scale foundation models and advanced sequence modeling to capture long-range dependencies, they still struggle with two critical issues. First, directly applying frozen, task-agnostic features often leads to suboptimal separability due to the domain gap with specific histological tasks. Second, relying solely on global aggregators can cause over-smoothing, where sparse but critical diagnostic signals are overshadowed by the dominant background context. In this paper, we present ReconMIL, a novel framework designed to bridge this domain gap and balance global-local feature aggregation. Our approach introduces a Latent Space Reconstruction module that adaptively projects generic features into a compact, task-specific manifold, improving boundary delineation. To prevent information dilution, we develop a bi-stream architecture combining a Mamba-based global stream for contextual priors and a CNN-based local stream to preserve subtle morphological anomalies. A scale-adaptive selection mechanism dynamically fuses these two streams, determining when to rely on overall architecture versus local saliency. Evaluations across multiple diagnostic and survival prediction benchmarks show that ReconMIL consistently outperforms current state-of-the-art methods, effectively localizing fine-grained diagnostic regions while suppressing background noise. Visualization results confirm the models superior ability to localize diagnostic regions by effectively balancing global structure and local granularity.