MEATRD: Multimodal Anomalous Tissue Region Detection Enhanced with Spatial Transcriptomics

📄 arXiv: 2412.10659v1 📥 PDF

作者: Kaichen Xu, Qilong Wu, Yan Lu, Yinan Zheng, Wenlin Li, Xingjie Tang, Jun Wang, Xiaobo Sun

分类: cs.CV, cs.LG, q-bio.QM

发布日期: 2024-12-14

备注: AAAI 2025. Code: https://github.com/wqlzuel/MEATRD


💡 一句话要点

MEATRD:结合空间转录组学增强的多模态异常组织区域检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 异常组织检测 空间转录组学 多模态融合 Transformer网络 单类分类

📋 核心要点

  1. 现有ATR检测方法主要依赖组织学图像,在视觉差异细微时表现不佳,缺乏有效利用多模态信息的方法。
  2. MEATRD通过重建正常组织的多模态数据,并基于重建误差进行异常检测,融合了重建和单类分类的优势。
  3. 实验结果表明,MEATRD在多个真实ST数据集上超越了现有方法,尤其擅长检测视觉差异细微的ATRs。

📝 摘要(中文)

在受影响的组织中检测异常组织区域(ATRs)对于临床诊断和病理学研究至关重要。传统的自动化ATR检测方法主要依赖组织学图像,但在ATRs和正常组织视觉差异细微时效果不佳。空间转录组学(ST)技术能够分析组织区域的基因表达谱,为检测ATRs提供分子视角。然而,缺乏有效利用组织学图像和ST互补信息的ATR检测方法。为此,我们提出了MEATRD,一种整合组织学图像和ST数据的新型ATR检测方法。MEATRD通过多模态嵌入重建正常组织位点(内点)的图像块和基因表达谱进行训练,然后基于潜在的多模态重建误差学习单类分类AD模型。该策略协调了基于重建和单类分类方法的优势。MEATRD的核心是创新的掩码图双注意力Transformer (MGDAT)网络,它不仅促进了跨模态和跨节点的信息共享,还解决了基于重建的AD方法中常见的模型过度泛化问题。此外,我们证明了模态特定的、任务相关的信息被整理和浓缩在MGDAT中生成的多模态瓶颈编码中,这标志着对多模态瓶颈编码的信息属性的首次理论分析。在八个真实ST数据集上的广泛评估表明,MEATRD在ATR检测方面表现出色,超越了各种最先进的AD方法。值得注意的是,MEATRD还擅长辨别仅显示与正常组织略有视觉偏差的ATRs。

🔬 方法详解

问题定义:论文旨在解决异常组织区域(ATR)的自动检测问题。现有方法主要依赖组织学图像,当ATR与正常组织在视觉上差异不明显时,检测效果不佳。空间转录组学(ST)提供了基因表达信息,但缺乏有效融合组织学图像和ST信息的方法。

核心思路:论文的核心思路是利用多模态信息(组织学图像和ST数据)互补的特性,通过学习正常组织的多模态表征,然后检测与正常表征偏差较大的区域作为异常区域。这种方法结合了重建和单类分类的优点,能够更有效地检测视觉差异细微的ATR。

技术框架:MEATRD的整体框架包括以下几个主要模块:1) 多模态数据输入:接收组织学图像和空间转录组学数据。2) 掩码图双注意力Transformer (MGDAT) 网络:用于跨模态和跨节点的信息融合和特征提取。3) 多模态瓶颈编码:将融合后的信息压缩到低维空间。4) 重建模块:利用瓶颈编码重建原始的组织学图像和基因表达谱。5) 异常检测模块:基于重建误差进行单类分类,识别异常组织区域。

关键创新:MEATRD的关键创新在于提出了掩码图双注意力Transformer (MGDAT) 网络。MGDAT不仅能够有效地融合组织学图像和ST数据,还能通过掩码机制解决重建方法中常见的过度泛化问题。此外,论文还首次对多模态瓶颈编码的信息属性进行了理论分析,证明了其能够有效提取模态特定的、任务相关的信息。

关键设计:MGDAT网络采用了双注意力机制,分别关注跨模态和跨节点的信息交互。掩码机制通过随机屏蔽部分输入数据,防止模型过度拟合正常组织,提高泛化能力。损失函数包括重建损失和单类分类损失,用于优化模型的重建能力和异常检测性能。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MEATRD在八个真实空间转录组学数据集上进行了广泛的评估,实验结果表明,MEATRD在ATR检测方面显著优于现有的异常检测方法。尤其是在检测视觉差异细微的ATRs时,MEATRD表现出更强的优势。具体的性能提升数据在论文中有详细展示。

🎯 应用场景

MEATRD在临床诊断、病理学研究和药物研发等领域具有广泛的应用前景。它可以辅助医生更准确地识别肿瘤、炎症等疾病的异常组织区域,提高诊断效率和准确性。此外,MEATRD还可以用于研究疾病的发生发展机制,为新药研发提供新的思路。

📄 摘要(原文)

The detection of anomalous tissue regions (ATRs) within affected tissues is crucial in clinical diagnosis and pathological studies. Conventional automated ATR detection methods, primarily based on histology images alone, falter in cases where ATRs and normal tissues have subtle visual differences. The recent spatial transcriptomics (ST) technology profiles gene expressions across tissue regions, offering a molecular perspective for detecting ATRs. However, there is a dearth of ATR detection methods that effectively harness complementary information from both histology images and ST. To address this gap, we propose MEATRD, a novel ATR detection method that integrates histology image and ST data. MEATRD is trained to reconstruct image patches and gene expression profiles of normal tissue spots (inliers) from their multimodal embeddings, followed by learning a one-class classification AD model based on latent multimodal reconstruction errors. This strategy harmonizes the strengths of reconstruction-based and one-class classification approaches. At the heart of MEATRD is an innovative masked graph dual-attention transformer (MGDAT) network, which not only facilitates cross-modality and cross-node information sharing but also addresses the model over-generalization issue commonly seen in reconstruction-based AD methods. Additionally, we demonstrate that modality-specific, task-relevant information is collated and condensed in multimodal bottleneck encoding generated in MGDAT, marking the first theoretical analysis of the informational properties of multimodal bottleneck encoding. Extensive evaluations across eight real ST datasets reveal MEATRD's superior performance in ATR detection, surpassing various state-of-the-art AD methods. Remarkably, MEATRD also proves adept at discerning ATRs that only show slight visual deviations from normal tissues.