TICON: A Slide-Level Tile Contextualizer for Histopathology Representation Learning

📄 arXiv: 2512.21331v2 📥 PDF

作者: Varun Belagali, Saarthak Kapse, Pierre Marza, Srijan Das, Zilinghan Li, Sofiène Boutaj, Pushpak Pati, Srikar Yellapragada, Tarak Nath Nandi, Ravi K Madduri, Joel Saltz, Prateek Prasanna, Stergios Christodoulidis, Maria Vakalopoulou, Dimitris Samaras

分类: cs.CV

发布日期: 2025-12-24 (更新: 2025-12-25)


💡 一句话要点

TICON:一种用于组织病理学表征学习的切片级瓦片上下文建模方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 组织病理学 全切片图像 表征学习 Transformer 上下文建模

📋 核心要点

  1. 现有方法提取的瓦片嵌入缺乏上下文信息,难以有效建模切片级信息,限制了在病理学任务中的性能。
  2. TICON通过Transformer架构,利用掩码建模目标,对来自不同瓦片级基础模型的嵌入进行统一和上下文建模。
  3. 实验表明,TICON显著提升了瓦片级和切片级任务的性能,并使用更少的数据训练出更强大的切片级基础模型。

📝 摘要(中文)

本文提出了一种基于Transformer的瓦片表征上下文建模方法TICON,旨在为计算病理学中的“任何”应用生成丰富的、上下文相关的嵌入。标准的基于瓦片编码器的流程提取的瓦片嵌入缺乏上下文信息,无法有效建模对于局部和全局任务至关重要的切片级信息。此外,不同的瓦片编码器擅长于不同的下游任务。因此,需要一个统一的模型来对来自“任何”瓦片级病理学基础模型的嵌入进行上下文建模。TICON通过一个共享的编码器解决了这一需求,该编码器使用掩码建模目标进行预训练,以同时统一和上下文建模来自不同瓦片级病理学基础模型的表征。实验表明,TICON上下文嵌入显著提高了各种任务的性能,在瓦片级基准测试(HEST-Bench、THUNDER、CATCH)和切片级基准测试(Patho-Bench)上都取得了新的最先进结果。最后,我们仅使用1.1万张WSI在TICON上预训练了一个聚合器,形成了一个切片级基础模型,其性能优于使用高达35万张WSI预训练的最先进切片级基础模型。

🔬 方法详解

问题定义:在计算病理学中,全切片图像(WSI)的分析通常依赖于将图像分割成小瓦片,然后提取瓦片特征。然而,孤立地处理这些瓦片忽略了它们之间的空间关系和上下文信息,这对于准确的诊断和预测至关重要。现有的瓦片编码器虽然可以提取瓦片特征,但缺乏对切片级别信息的有效建模,并且针对不同下游任务需要不同的编码器,缺乏通用性。

核心思路:TICON的核心思路是通过Transformer架构来建模瓦片之间的上下文关系,从而为每个瓦片生成更具信息量的上下文嵌入。通过预训练一个共享的编码器,TICON能够统一来自不同瓦片级基础模型的表征,并利用掩码建模目标学习瓦片之间的依赖关系。这种方法旨在克服现有方法中缺乏上下文信息和通用性的问题。

技术框架:TICON的整体框架包括以下几个主要步骤:1) 使用不同的瓦片级基础模型提取瓦片嵌入;2) 将这些瓦片嵌入输入到TICON的Transformer编码器中;3) 使用掩码建模目标对Transformer编码器进行预训练,使其能够学习瓦片之间的上下文关系;4) 使用预训练的TICON编码器生成上下文嵌入,用于下游的瓦片级和切片级任务。对于切片级任务,论文还训练了一个聚合器,将瓦片级别的上下文嵌入聚合为切片级别的表征。

关键创新:TICON的关键创新在于其利用Transformer架构对瓦片进行上下文建模,并使用掩码建模目标进行预训练。与现有方法相比,TICON能够更有效地捕捉瓦片之间的空间关系和上下文信息,从而生成更具信息量的嵌入。此外,TICON的共享编码器设计使其能够统一来自不同瓦片级基础模型的表征,提高了模型的通用性。

关键设计:TICON的关键设计包括:1) 使用Transformer编码器作为上下文建模的核心模块;2) 采用掩码建模目标进行预训练,迫使模型学习瓦片之间的依赖关系;3) 设计一个共享的编码器,使其能够处理来自不同瓦片级基础模型的嵌入;4) 训练一个聚合器,将瓦片级别的上下文嵌入聚合为切片级别的表征。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TICON在多个基准测试中取得了显著的性能提升。在瓦片级基准测试(HEST-Bench、THUNDER、CATCH)和切片级基准测试(Patho-Bench)上,TICON都达到了新的最先进水平。更重要的是,TICON仅使用1.1万张WSI预训练的切片级基础模型,其性能就优于使用高达35万张WSI预训练的最先进模型,表明了TICON在数据效率方面的优势。

🎯 应用场景

TICON在计算病理学领域具有广泛的应用前景,可用于辅助病理学家进行疾病诊断、预后预测和治疗方案选择。通过提供更准确的瓦片和切片表征,TICON可以提高病理图像分析的效率和准确性,从而改善患者的治疗效果。未来,TICON可以进一步扩展到其他医学图像分析领域,例如放射影像学和内窥镜图像分析。

📄 摘要(原文)

The interpretation of small tiles in large whole slide images (WSI) often needs a larger image context. We introduce TICON, a transformer-based tile representation contextualizer that produces rich, contextualized embeddings for ''any'' application in computational pathology. Standard tile encoder-based pipelines, which extract embeddings of tiles stripped from their context, fail to model the rich slide-level information essential for both local and global tasks. Furthermore, different tile-encoders excel at different downstream tasks. Therefore, a unified model is needed to contextualize embeddings derived from ''any'' tile-level foundation model. TICON addresses this need with a single, shared encoder, pretrained using a masked modeling objective to simultaneously unify and contextualize representations from diverse tile-level pathology foundation models. Our experiments demonstrate that TICON-contextualized embeddings significantly improve performance across many different tasks, establishing new state-of-the-art results on tile-level benchmarks (i.e., HEST-Bench, THUNDER, CATCH) and slide-level benchmarks (i.e., Patho-Bench). Finally, we pretrain an aggregator on TICON to form a slide-level foundation model, using only 11K WSIs, outperforming SoTA slide-level foundation models pretrained with up to 350K WSIs.