Parameter-efficient fine-tuning (PEFT) of Vision Foundation Models for Atypical Mitotic Figure Classification

作者: Lavish Ramchandani, Gunjan Deotale, Dev Kumar Das

分类: cs.CV

发布日期: 2025-09-21 (更新: 2026-01-10)

备注: MIDOG'25

💡 一句话要点

利用参数高效微调的视觉基础模型进行非典型有丝分裂图像分类

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 非典型有丝分裂 视觉基础模型 参数高效微调 低秩适应 医学图像分析

📋 核心要点

非典型有丝分裂图像识别困难，现有方法受限于形态细微差别、类别不平衡和观察者主观性。
论文提出使用视觉基础模型（Virchow等）结合LoRA进行参数高效微调，降低计算成本并提升模型泛化能力。
实验结果表明，该方法在MIDOG 2025挑战赛中取得了有竞争力的结果，验证了其在非典型有丝分裂分类中的潜力。

📝 摘要（中文）

非典型有丝分裂图像(AMFs)是与肿瘤侵袭性和不良预后相关的罕见异常细胞分裂。由于形态线索细微、类别不平衡以及病理学家之间的观察者差异，其检测仍然是一个重大挑战。MIDOG 2025 挑战赛专门设立了非典型有丝分裂分类赛道，以系统地评估深度学习方法。本研究探讨了使用大型视觉基础模型（包括 Virchow、Virchow2 和 UNI）以及低秩适应(LoRA)进行参数高效微调。我们使用不同的 LoRA 秩以及随机和基于组的数据分割进行了广泛的实验，以分析在不同条件下的鲁棒性。我们最好的方法，即 LoRA 秩为 8 的 Virchow 模型，以及三折交叉验证集成，在初步测试集上实现了 88.37% 的平衡准确率，在挑战赛排行榜中并列第九。这些结果突出了具有高效适应策略的基础模型在非典型有丝分裂分类中的潜力，同时也强调了提高特异性和领域泛化能力的需求。

🔬 方法详解

问题定义：论文旨在解决非典型有丝分裂图像（AMFs）的自动分类问题。现有方法，如传统的卷积神经网络，在处理此类图像时面临挑战，主要原因是AMFs的形态特征细微，类别分布不平衡，以及病理学家之间存在观察差异，导致模型泛化能力不足。此外，从头训练深度学习模型需要大量的标注数据和计算资源。

核心思路：论文的核心思路是利用预训练的视觉基础模型（Vision Foundation Models）的强大表征能力，并通过参数高效微调（Parameter-efficient Fine-tuning, PEFT）方法，特别是低秩适应（Low-Rank Adaptation, LoRA），来适应AMFs分类任务。这种方法可以在仅更新少量参数的情况下，快速将预训练模型迁移到目标任务，从而降低计算成本并提高训练效率。

技术框架：整体框架包括以下几个主要步骤：1) 选择合适的视觉基础模型，如Virchow, Virchow2, UNI等；2) 在选定的基础模型上应用LoRA进行参数高效微调。LoRA通过引入低秩矩阵来近似模型参数的更新，从而减少需要训练的参数数量；3) 使用AMFs数据集对微调后的模型进行训练和验证；4) 通过交叉验证和集成学习等方法进一步提高模型的性能和鲁棒性。

关键创新：论文的关键创新在于将参数高效微调技术（特别是LoRA）应用于视觉基础模型，以解决非典型有丝分裂图像分类问题。与传统的全参数微调相比，LoRA显著减少了需要训练的参数数量，降低了计算成本，并有助于防止过拟合。此外，论文还探索了不同的LoRA秩和数据分割策略，以分析模型在不同条件下的鲁棒性。

关键设计：论文的关键设计包括：1) 选择合适的LoRA秩（rank），以平衡模型性能和参数数量。实验中探索了不同的LoRA秩，如8；2) 使用交叉验证来评估模型的泛化能力，并采用集成学习来提高模型的鲁棒性；3) 采用平衡准确率（Balanced Accuracy）作为评估指标，以应对类别不平衡问题；4) 探索不同的数据分割策略，如随机分割和基于组的分割，以评估模型在不同数据分布下的性能。

📊 实验亮点

实验结果表明，使用LoRA秩为8的Virchow模型，并结合三折交叉验证集成，在初步测试集上实现了88.37%的平衡准确率，在MIDOG 2025挑战赛排行榜中并列第九。这表明了参数高效微调的视觉基础模型在非典型有丝分裂分类任务中的有效性。

🎯 应用场景

该研究成果可应用于病理诊断辅助系统，帮助病理学家更准确、高效地识别非典型有丝分裂图像，从而提高肿瘤诊断的准确性和效率。此外，该方法也可推广到其他医学图像分析任务，例如细胞类型识别、病灶检测等，具有广阔的应用前景。

📄 摘要（原文）

Atypical mitotic figures (AMFs) are rare abnormal cell divisions associated with tumor aggressiveness and poor prognosis. Their detection remains a significant challenge due to subtle morphological cues, class imbalance, and inter-observer variability among pathologists. The MIDOG 2025 challenge introduced a dedicated track for atypical mitosis classification, enabling systematic evaluation of deep learning methods. In this study, we investigated the use of large vision foundation models, including Virchow, Virchow2, and UNI, with Low-Rank Adaptation (LoRA) for parameter-efficient fine-tuning. We conducted extensive experiments with different LoRA ranks, as well as random and group-based data splits, to analyze robustness under varied conditions. Our best approach, Virchow with LoRA rank 8 and ensemble of three-fold cross-validation, achieved a balanced accuracy of 88.37% on the preliminary test set, ranking joint 9th in the challenge leaderboard. These results highlight the promise of foundation models with efficient adaptation strategies for the classification of atypical mitosis, while underscoring the need for improvements in specificity and domain generalization.

Parameter-efficient fine-tuning (PEFT) of Vision Foundation Models for Atypical Mitotic Figure Classification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理