Cross-Organ and Cross-Scanner Adenocarcinoma Segmentation using Rein to Fine-tune Vision Foundation Models

📄 arXiv: 2409.11752v3 📥 PDF

作者: Pengzhou Cai, Xueyuan Zhang, Libin Lan, Ze Zhao

分类: eess.IV, cs.CV

发布日期: 2024-09-18 (更新: 2024-09-29)


💡 一句话要点

提出Rein微调方法,高效适配视觉基础模型,解决跨器官和扫描仪的腺癌分割问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 腺癌分割 视觉基础模型 微调 领域自适应 数字病理 跨器官 跨扫描仪

📋 核心要点

  1. 数字病理图像的器官差异、组织处理方式及扫描设备差异导致领域偏移,降低了肿瘤分割模型的泛化能力。
  2. 论文提出Rein微调方法,通过引入可学习的tokens,增强模型对实例级别特征的提取和适应能力,从而解决领域偏移问题。
  3. 实验结果表明,Rein微调ConvNeXt和DINOv2在COSAS2024挑战赛的Task1和Task2上均取得了显著的分割性能提升。

📝 摘要(中文)

本文针对数字病理图像中由于器官、组织制备方法和图像采集过程差异导致的领域差异问题,提出使用Rein微调方法,参数化且高效地微调各种视觉基础模型(VFMs),以应用于MICCAI 2024跨器官和跨扫描仪腺癌分割(COSAS2024)挑战赛。Rein的核心在于一组可学习的tokens,这些tokens直接与实例相关联,从而在每一层改进实例级别的功能。在COSAS2024挑战赛的数据环境下,大量实验表明,Rein微调VFMs后取得了令人满意的结果。具体而言,我们使用Rein微调了ConvNeXt和DINOv2。我们的团队使用前者在task1的初步测试阶段和最终测试阶段分别获得了0.7719和0.7557的分数,而后者在task2的初步测试阶段和最终测试阶段分别获得了0.8848和0.8192的分数。代码已在GitHub上发布。

🔬 方法详解

问题定义:论文旨在解决跨器官和跨扫描仪的腺癌分割问题。现有的肿瘤分割方法在处理来自不同器官或使用不同扫描仪获得的数字病理图像时,由于领域差异,性能会显著下降。这些差异源于组织结构、染色方式以及图像采集过程的变化,使得模型难以泛化到新的数据集上。

核心思路:论文的核心思路是利用Rein微调方法,通过引入一组可学习的tokens,使视觉基础模型能够更好地适应特定实例的特征。这些tokens直接与实例相关联,从而在模型的每一层都增强了实例级别的表示能力,从而更好地适应不同器官和扫描仪带来的差异。

技术框架:整体框架包括使用预训练的视觉基础模型(如ConvNeXt或DINOv2)作为 backbone,然后使用Rein方法进行微调。Rein方法在模型的每一层都引入一组可学习的tokens,这些tokens与输入图像的实例相关联。通过训练这些tokens,模型可以学习到特定实例的特征表示,从而提高分割性能。

关键创新:关键创新在于Rein微调方法本身,它通过引入可学习的tokens,实现了对视觉基础模型的参数化和高效微调。与传统的微调方法相比,Rein方法能够更好地适应特定实例的特征,从而提高模型在跨领域场景下的泛化能力。这种方法特别适用于处理具有显著领域差异的数字病理图像。

关键设计:Rein方法的关键设计在于可学习tokens的引入和训练方式。这些tokens被添加到视觉基础模型的每一层,并通过与输入图像的实例进行交互来学习特征表示。损失函数的设计旨在鼓励tokens学习到与分割任务相关的特征,例如,可以使用交叉熵损失或Dice损失来优化tokens的参数。具体的网络结构和参数设置取决于所使用的视觉基础模型和数据集。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,使用Rein微调ConvNeXt在COSAS2024挑战赛的Task1的初步测试阶段和最终测试阶段分别获得了0.7719和0.7557的分数。使用Rein微调DINOv2在Task2的初步测试阶段和最终测试阶段分别获得了0.8848和0.8192的分数。这些结果表明,Rein方法能够有效地提高视觉基础模型在跨器官和跨扫描仪腺癌分割任务中的性能。

🎯 应用场景

该研究成果可应用于病理诊断辅助系统,帮助病理医生更准确地分割和识别腺癌组织。通过提高跨器官和跨扫描仪的分割精度,该方法有望减少诊断误差,提高诊断效率,并为个性化治疗方案的制定提供更可靠的依据。未来,该技术还可扩展到其他医学图像分割任务中,例如其他类型肿瘤的分割或器官的自动分割。

📄 摘要(原文)

In recent years, significant progress has been made in tumor segmentation within the field of digital pathology. However, variations in organs, tissue preparation methods, and image acquisition processes can lead to domain discrepancies among digital pathology images. To address this problem, in this paper, we use Rein, a fine-tuning method, to parametrically and efficiently fine-tune various vision foundation models (VFMs) for MICCAI 2024 Cross-Organ and Cross-Scanner Adenocarcinoma Segmentation (COSAS2024). The core of Rein consists of a set of learnable tokens, which are directly linked to instances, improving functionality at the instance level in each layer. In the data environment of the COSAS2024 Challenge, extensive experiments demonstrate that Rein fine-tuned the VFMs to achieve satisfactory results. Specifically, we used Rein to fine-tune ConvNeXt and DINOv2. Our team used the former to achieve scores of 0.7719 and 0.7557 on the preliminary test phase and final test phase in task1, respectively, while the latter achieved scores of 0.8848 and 0.8192 on the preliminary test phase and final test phase in task2. Code is available at GitHub.