TICON: A Slide-Level Tile Contextualizer for Histopathology Representation Learning

作者: Varun Belagali, Saarthak Kapse, Pierre Marza, Srijan Das, Zilinghan Li, Sofiène Boutaj, Pushpak Pati, Srikar Yellapragada, Tarak Nath Nandi, Ravi K Madduri, Joel Saltz, Prateek Prasanna, Stergios Christodoulidis, Maria Vakalopoulou, Dimitris Samaras

分类: cs.CV

发布日期: 2025-12-24 (更新: 2025-12-25)

💡 一句话要点

TICON：一种用于组织病理学表征学习的切片级瓦片上下文建模方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 组织病理学 全切片图像 表征学习 Transformer 上下文建模

📋 核心要点

现有方法提取的瓦片嵌入缺乏上下文信息，难以有效建模切片级信息，限制了在病理学任务中的性能。
TICON通过Transformer架构，利用掩码建模目标，对来自不同瓦片级基础模型的嵌入进行统一和上下文建模。
实验表明，TICON显著提升了瓦片级和切片级任务的性能，并使用更少的数据训练出更强大的切片级基础模型。

📝 摘要（中文）

本文提出了一种基于Transformer的瓦片表征上下文建模方法TICON，旨在为计算病理学中的“任何”应用生成丰富的、上下文相关的嵌入。标准的基于瓦片编码器的流程提取的瓦片嵌入缺乏上下文信息，无法有效建模对于局部和全局任务至关重要的切片级信息。此外，不同的瓦片编码器擅长于不同的下游任务。因此，需要一个统一的模型来对来自“任何”瓦片级病理学基础模型的嵌入进行上下文建模。TICON通过一个共享的编码器解决了这一需求，该编码器使用掩码建模目标进行预训练，以同时统一和上下文建模来自不同瓦片级病理学基础模型的表征。实验表明，TICON上下文嵌入显著提高了各种任务的性能，在瓦片级基准测试（HEST-Bench、THUNDER、CATCH）和切片级基准测试（Patho-Bench）上都取得了新的最先进结果。最后，我们仅使用1.1万张WSI在TICON上预训练了一个聚合器，形成了一个切片级基础模型，其性能优于使用高达35万张WSI预训练的最先进切片级基础模型。

🔬 方法详解

问题定义：在计算病理学中，全切片图像（WSI）的分析通常依赖于将图像分割成小瓦片，然后提取瓦片特征。然而，孤立地处理这些瓦片忽略了它们之间的空间关系和上下文信息，这对于准确的诊断和预测至关重要。现有的瓦片编码器虽然可以提取瓦片特征，但缺乏对切片级别信息的有效建模，并且针对不同下游任务需要不同的编码器，缺乏通用性。

核心思路：TICON的核心思路是通过Transformer架构来建模瓦片之间的上下文关系，从而为每个瓦片生成更具信息量的上下文嵌入。通过预训练一个共享的编码器，TICON能够统一来自不同瓦片级基础模型的表征，并利用掩码建模目标学习瓦片之间的依赖关系。这种方法旨在克服现有方法中缺乏上下文信息和通用性的问题。

技术框架：TICON的整体框架包括以下几个主要步骤：1) 使用不同的瓦片级基础模型提取瓦片嵌入；2) 将这些瓦片嵌入输入到TICON的Transformer编码器中；3) 使用掩码建模目标对Transformer编码器进行预训练，使其能够学习瓦片之间的上下文关系；4) 使用预训练的TICON编码器生成上下文嵌入，用于下游的瓦片级和切片级任务。对于切片级任务，论文还训练了一个聚合器，将瓦片级别的上下文嵌入聚合为切片级别的表征。

关键创新：TICON的关键创新在于其利用Transformer架构对瓦片进行上下文建模，并使用掩码建模目标进行预训练。与现有方法相比，TICON能够更有效地捕捉瓦片之间的空间关系和上下文信息，从而生成更具信息量的嵌入。此外，TICON的共享编码器设计使其能够统一来自不同瓦片级基础模型的表征，提高了模型的通用性。

关键设计：TICON的关键设计包括：1) 使用Transformer编码器作为上下文建模的核心模块；2) 采用掩码建模目标进行预训练，迫使模型学习瓦片之间的依赖关系；3) 设计一个共享的编码器，使其能够处理来自不同瓦片级基础模型的嵌入；4) 训练一个聚合器，将瓦片级别的上下文嵌入聚合为切片级别的表征。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

TICON在多个基准测试中取得了显著的性能提升。在瓦片级基准测试（HEST-Bench、THUNDER、CATCH）和切片级基准测试（Patho-Bench）上，TICON都达到了新的最先进水平。更重要的是，TICON仅使用1.1万张WSI预训练的切片级基础模型，其性能就优于使用高达35万张WSI预训练的最先进模型，表明了TICON在数据效率方面的优势。

🎯 应用场景

TICON在计算病理学领域具有广泛的应用前景，可用于辅助病理学家进行疾病诊断、预后预测和治疗方案选择。通过提供更准确的瓦片和切片表征，TICON可以提高病理图像分析的效率和准确性，从而改善患者的治疗效果。未来，TICON可以进一步扩展到其他医学图像分析领域，例如放射影像学和内窥镜图像分析。

📄 摘要（原文）

The interpretation of small tiles in large whole slide images (WSI) often needs a larger image context. We introduce TICON, a transformer-based tile representation contextualizer that produces rich, contextualized embeddings for ''any'' application in computational pathology. Standard tile encoder-based pipelines, which extract embeddings of tiles stripped from their context, fail to model the rich slide-level information essential for both local and global tasks. Furthermore, different tile-encoders excel at different downstream tasks. Therefore, a unified model is needed to contextualize embeddings derived from ''any'' tile-level foundation model. TICON addresses this need with a single, shared encoder, pretrained using a masked modeling objective to simultaneously unify and contextualize representations from diverse tile-level pathology foundation models. Our experiments demonstrate that TICON-contextualized embeddings significantly improve performance across many different tasks, establishing new state-of-the-art results on tile-level benchmarks (i.e., HEST-Bench, THUNDER, CATCH) and slide-level benchmarks (i.e., Patho-Bench). Finally, we pretrain an aggregator on TICON to form a slide-level foundation model, using only 11K WSIs, outperforming SoTA slide-level foundation models pretrained with up to 350K WSIs.

TICON: A Slide-Level Tile Contextualizer for Histopathology Representation Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理