MERA: Multimodal and Multiscale Self-Explanatory Model with Considerably Reduced Annotation for Lung Nodule Diagnosis

📄 arXiv: 2504.19357v1 📥 PDF

作者: Jiahao Lu, Chong Yin, Silvia Ingala, Kenny Erleben, Michael Bachmann Nielsen, Sune Darkner

分类: cs.CV

发布日期: 2025-04-27

🔗 代码/项目: GITHUB


💡 一句话要点

MERA:一种低标注需求的多模态多尺度自解释肺结节诊断模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 肺结节诊断 自解释AI 多模态学习 弱监督学习 主动学习 Vision Transformer 医学影像分析

📋 核心要点

  1. 现有肺结节诊断系统在标注数据有限的情况下,难以提供清晰全面的解释,限制了其临床应用。
  2. MERA模型通过结合自监督学习、弱监督学习和分层预测机制,实现了低标注需求下的肺结节诊断。
  3. 实验结果表明,MERA仅使用1%的标注数据,即可达到或超过需要完全标注的先进方法的诊断准确性。

📝 摘要(中文)

肺癌是全球癌症相关死亡的主要原因,早期检测至关重要。肺结节是肺癌的早期指标,需要准确及时的诊断。尽管可解释人工智能(XAI)取得了进展,但许多现有系统难以提供清晰、全面的解释,尤其是在标记数据有限的情况下。本研究提出MERA,一种多模态和多尺度自解释模型,专为降低标注需求的肺结节诊断而设计。MERA集成了无监督和弱监督学习策略(自监督学习技术和用于无监督特征提取的Vision Transformer架构),以及利用稀疏标注通过半监督主动学习在学习到的潜在空间中的分层预测机制。MERA在多个层面上解释其决策:通过语义潜在空间聚类的模型级全局解释,显示相似实例的实例级基于案例的解释,通过注意力图的局部视觉解释,以及使用关键结节属性的概念解释。在公共LIDC数据集上的评估表明,MERA具有卓越的诊断准确性和自解释性。仅使用1%的标注样本,MERA即可达到或超过需要完全标注的最新方法的诊断准确性。该模型的固有设计提供了全面、稳健、多层次的解释,与临床实践紧密结合,增强了可信度和透明度。无监督和弱监督学习的可行性降低了在更广泛的医疗领域部署诊断AI的门槛。完整的代码已开源。

🔬 方法详解

问题定义:论文旨在解决肺结节诊断中对大量标注数据的依赖问题。现有方法通常需要大量的标注数据才能训练出高性能的模型,这在医疗领域是昂贵且耗时的。此外,现有模型的可解释性不足,难以让医生信任和理解模型的决策过程。

核心思路:论文的核心思路是利用无监督和弱监督学习来减少对标注数据的需求,并设计一个自解释的模型,使其能够提供多层次的解释。通过自监督学习提取图像的潜在特征,并利用少量标注数据进行微调,从而在低标注的情况下实现高性能的诊断。同时,模型的设计使其能够提供全局、局部和概念级别的解释,增强了模型的可信度和透明度。

技术框架:MERA模型的整体框架包括以下几个主要模块:1) 自监督特征提取模块:使用Vision Transformer架构进行无监督特征提取。2) 半监督主动学习模块:利用少量标注数据,通过主动学习策略选择最有价值的样本进行标注,并对模型进行微调。3) 分层预测模块:在学习到的潜在空间中进行分层预测,实现多尺度的诊断。4) 解释模块:提供模型级别的全局解释、实例级别的基于案例的解释、局部视觉解释和概念解释。

关键创新:MERA模型的关键创新点在于其多模态和多尺度的自解释性设计,以及其在低标注数据下的高性能表现。与现有方法相比,MERA模型不需要大量的标注数据,并且能够提供更全面、更易于理解的解释。此外,MERA模型集成了多种学习策略,包括自监督学习、弱监督学习和主动学习,从而实现了更好的性能。

关键设计:MERA模型使用Vision Transformer作为特征提取器,并采用对比学习等自监督学习方法进行预训练。在半监督主动学习中,使用不确定性采样等策略选择最有价值的样本进行标注。在分层预测中,使用多层感知机等模型进行分类。损失函数包括交叉熵损失、对比损失等。具体的参数设置和网络结构细节可以在论文的实验部分找到。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MERA模型在LIDC数据集上进行了评估,结果表明,仅使用1%的标注样本,MERA即可达到或超过需要完全标注的最新方法的诊断准确性。这表明MERA模型在低标注数据下具有很强的竞争力。此外,MERA模型能够提供多层次的解释,增强了模型的可信度和透明度。

🎯 应用场景

MERA模型具有广泛的应用前景,可用于肺癌早期筛查、辅助诊断和治疗方案制定。该模型降低了对大量标注数据的依赖,使得AI技术更容易在医疗领域推广应用。此外,MERA模型的可解释性设计有助于医生理解和信任模型的决策,从而更好地利用AI技术辅助临床决策。未来,该模型可以扩展到其他医学影像诊断任务中。

📄 摘要(原文)

Lung cancer, a leading cause of cancer-related deaths globally, emphasises the importance of early detection for better patient outcomes. Pulmonary nodules, often early indicators of lung cancer, necessitate accurate, timely diagnosis. Despite Explainable Artificial Intelligence (XAI) advances, many existing systems struggle providing clear, comprehensive explanations, especially with limited labelled data. This study introduces MERA, a Multimodal and Multiscale self-Explanatory model designed for lung nodule diagnosis with considerably Reduced Annotation requirements. MERA integrates unsupervised and weakly supervised learning strategies (self-supervised learning techniques and Vision Transformer architecture for unsupervised feature extraction) and a hierarchical prediction mechanism leveraging sparse annotations via semi-supervised active learning in the learned latent space. MERA explains its decisions on multiple levels: model-level global explanations via semantic latent space clustering, instance-level case-based explanations showing similar instances, local visual explanations via attention maps, and concept explanations using critical nodule attributes. Evaluations on the public LIDC dataset show MERA's superior diagnostic accuracy and self-explainability. With only 1% annotated samples, MERA achieves diagnostic accuracy comparable to or exceeding state-of-the-art methods requiring full annotation. The model's inherent design delivers comprehensive, robust, multilevel explanations aligned closely with clinical practice, enhancing trustworthiness and transparency. Demonstrated viability of unsupervised and weakly supervised learning lowers the barrier to deploying diagnostic AI in broader medical domains. Our complete code is open-source available: https://github.com/diku-dk/credanno.