Lifelong Whole Slide Image Analysis: Online Vision-Language Adaptation and Past-to-Present Gradient Distillation

📄 arXiv: 2505.01984v1 📥 PDF

作者: Doanh C. Bui, Hoai Luan Pham, Vu Trung Duong Le, Tuan Hai Vu, Van Duy Tran, Khang Nguyen, Yasuhiko Nakashima

分类: cs.CV

发布日期: 2025-05-04

备注: IEEE Access (2025)

DOI: 10.1109/ACCESS.2025.3580470


💡 一句话要点

提出ADaFGrad,用于WSI终身学习,提升在线视觉-语言适应能力和梯度蒸馏效果。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 全切片图像分析 终身学习 视觉-语言模型 梯度蒸馏 病理诊断

📋 核心要点

  1. 全切片图像分析面临存储、处理和模型训练的挑战,需要有效的终身学习方法。
  2. ADaFGrad利用病理视觉-语言模型,实现组织特征与文本原型交互,并提出梯度蒸馏机制。
  3. 实验表明,ADaFGrad在类增量学习中优于现有方法,遗忘率低,准确率提升显著。

📝 摘要(中文)

全切片图像(WSI)在癌症诊断和预后中起着关键作用,因为它们提供了细胞水平的组织细节。然而,涉及WSI的计算任务的快速增长带来了重大挑战。考虑到WSI的尺寸巨大,它们在存储、处理和模型训练方面都存在困难。因此,开发用于WSI分析的终身学习方法至关重要。在切片分布在多个机构的场景中,我们的目标是利用它们来开发一个统一的在线模型,作为临床和医院环境中癌症诊断的计算工具。在本研究中,我们介绍了一种名为ADaFGrad的方法,旨在增强全切片图像(WSI)分析的终身学习能力。首先,我们利用病理视觉-语言基础模型来开发一个框架,该框架能够实现切片的区域组织特征与预定义的基于文本的原型缓冲区之间的交互。此外,我们提出了一种梯度蒸馏机制,该机制模仿持续学习环境中过去和当前迭代中logit相对于分类头参数的梯度。我们构建了一个由六个TCGA数据集组成的序列用于训练和评估。实验结果表明,经过几个训练epoch后,ADaFGrad优于最先进的WSI特定方法和传统的持续学习方法,在类增量学习场景中超过它们高达+5.068%,同时表现出最小的遗忘(即,保留了来自先前任务的大部分知识)。此外,ADaFGrad的准确率比其基线高出+40.084%,进一步证明了所提出模块的有效性。

🔬 方法详解

问题定义:论文旨在解决全切片图像(WSI)分析中的终身学习问题。现有方法在处理大规模WSI数据时,面临存储、计算和模型训练的挑战。此外,当数据分布在多个机构时,如何构建一个统一的、能够持续学习的在线模型是一个难题。现有方法难以在不断变化的数据分布下保持性能,容易发生灾难性遗忘。

核心思路:论文的核心思路是结合视觉-语言模型和梯度蒸馏技术,实现WSI的在线终身学习。通过视觉-语言模型,将WSI的组织特征与文本原型进行交互,从而更好地理解和表示图像内容。梯度蒸馏则用于保留先前任务的知识,减少灾难性遗忘。这种设计旨在使模型能够适应新的数据分布,同时保持对先前任务的记忆。

技术框架:ADaFGrad框架主要包含以下几个模块:1) 病理视觉-语言基础模型:用于提取WSI的视觉特征,并将其与文本原型进行关联。2) 原型缓冲区:存储预定义的基于文本的原型,用于与WSI的组织特征进行交互。3) 梯度蒸馏模块:通过模仿过去和当前迭代中logit相对于分类头参数的梯度,保留先前任务的知识。整个流程是,首先利用视觉-语言模型提取WSI特征,然后与原型缓冲区中的文本原型进行交互,最后通过梯度蒸馏模块更新模型参数。

关键创新:论文的关键创新在于将视觉-语言模型和梯度蒸馏技术结合起来,用于解决WSI的终身学习问题。与现有方法相比,ADaFGrad能够更好地利用WSI的上下文信息,并有效地减少灾难性遗忘。此外,论文还提出了一个梯度蒸馏机制,该机制能够更精确地模仿过去任务的梯度信息。

关键设计:论文的关键设计包括:1) 使用预训练的病理视觉-语言模型,以获得更好的特征表示。2) 设计原型缓冲区,用于存储与WSI相关的文本信息。3) 提出梯度蒸馏损失函数,用于保留先前任务的知识。具体的损失函数形式未知,但其目标是最小化当前模型输出与过去模型输出之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ADaFGrad在六个TCGA数据集上进行了评估,实验结果表明,该方法在类增量学习场景中优于现有方法,性能提升高达+5.068%,同时表现出最小的遗忘。此外,ADaFGrad的准确率比其基线高出+40.084%,证明了所提出模块的有效性。这些结果表明,ADaFGrad是一种有效的WSI终身学习方法。

🎯 应用场景

该研究成果可应用于临床病理诊断,帮助医生更准确地进行癌症诊断和预后评估。通过构建一个能够持续学习的WSI分析模型,可以减少人工标注的工作量,提高诊断效率。此外,该方法还可以应用于药物研发、病理教学等领域,具有广阔的应用前景。

📄 摘要(原文)

Whole Slide Images (WSIs) play a crucial role in accurate cancer diagnosis and prognosis, as they provide tissue details at the cellular level. However, the rapid growth of computational tasks involving WSIs poses significant challenges. Given that WSIs are gigapixels in size, they present difficulties in terms of storage, processing, and model training. Therefore, it is essential to develop lifelong learning approaches for WSI analysis. In scenarios where slides are distributed across multiple institutes, we aim to leverage them to develop a unified online model as a computational tool for cancer diagnosis in clinical and hospital settings. In this study, we introduce ADaFGrad, a method designed to enhance lifelong learning for whole-slide image (WSI) analysis. First, we leverage pathology vision-language foundation models to develop a framework that enables interaction between a slide's regional tissue features and a predefined text-based prototype buffer. Additionally, we propose a gradient-distillation mechanism that mimics the gradient of a logit with respect to the classification-head parameters across past and current iterations in a continual-learning setting. We construct a sequence of six TCGA datasets for training and evaluation. Experimental results show that ADaFGrad outperforms both state-of-the-art WSI-specific and conventional continual-learning methods after only a few training epochs, exceeding them by up to +5.068% in the class-incremental learning scenario while exhibiting the least forgetting (i.e., retaining the most knowledge from previous tasks). Moreover, ADaFGrad surpasses its baseline by as much as +40.084% in accuracy, further demonstrating the effectiveness of the proposed modules.