Semi-supervised classification of dental conditions in panoramic radiographs using large language model and instance segmentation: A real-world dataset evaluation
作者: Bernardo Silva, Jefferson Fontinele, Carolina Letícia Zilli Vieira, João Manuel R. S. Tavares, Patricia Ramos Cury, Luciano Oliveira
分类: cs.CV, cs.AI
发布日期: 2024-06-25
备注: 43 pages, 12 figures, 9 tables
💡 一句话要点
提出基于大语言模型和实例分割的半监督学习框架,用于全景牙科X光片中牙齿状况的分类。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 半监督学习 全景牙科X光片 大型语言模型 掩码自编码器 Vision Transformer 牙齿状况分类 医学影像分析
📋 核心要点
- 全景牙科X光片分析面临标注数据不足的挑战,限制了有监督深度学习方法的应用。
- 利用大型语言模型从牙科报告中提取信息,结合掩码自编码器和Vision Transformer,实现半监督学习。
- 实验结果表明,该方法在Matthews相关系数上达到或超过基线,性能与初级专家相当。
📝 摘要(中文)
本研究提出了一种半监督学习框架,用于分类全景牙科X光片中的十三种牙齿状况,特别关注牙齿本身。由于用于自动分析这些放射影像的有监督深度学习网络训练受到标记数据短缺的限制,本文探索了一种不同的视角。该框架利用大型语言模型,基于牙科报告自动标注最常见的牙齿状况。此外,采用掩码自编码器预训练分类神经网络,并使用Vision Transformer来利用未标记数据。通过对包含8,795张全景X光片和8,029份配对报告和图像的两个大型数据集进行验证,结果始终达到或超过了Matthews相关系数的基线指标。与人类医生的比较,以及统计分析,突出了该解决方案的有效性和性能局限性;基于专家之间的一致程度,该解决方案展示了与初级专家相当的准确度水平。
🔬 方法详解
问题定义:全景牙科X光片包含丰富的诊断信息,但缺乏足够的标注数据来训练有效的深度学习模型,特别是对于牙齿状况的分类。现有方法依赖于耗时且昂贵的人工标注,限制了其在实际应用中的推广。因此,如何利用大量未标注数据来提升模型性能是一个关键问题。
核心思路:本研究的核心思路是利用半监督学习,结合大型语言模型(LLM)的文本理解能力和自监督学习的特征提取能力,来解决标注数据不足的问题。通过LLM从牙科报告中提取标签信息,并利用掩码自编码器(MAE)从X光片中学习图像特征,从而实现对牙齿状况的有效分类。
技术框架:整体框架包含以下几个主要阶段:1) 数据预处理:对全景X光片和牙科报告进行清洗和格式化。2) LLM标注:使用LLM从牙科报告中提取牙齿状况的标签信息,作为弱监督信号。3) 自监督预训练:使用MAE在未标注的X光片上进行预训练,学习图像的通用特征表示。4) 半监督分类:使用Vision Transformer (ViT) 作为分类器,结合LLM提供的弱监督标签和MAE预训练的特征,进行半监督训练。
关键创新:本研究的关键创新在于:1) 结合LLM和自监督学习,提出了一种新的半监督学习框架,用于全景牙科X光片分析。2) 利用LLM从牙科报告中自动提取标签信息,降低了人工标注的成本。3) 使用MAE进行自监督预训练,提高了模型在有限标注数据下的泛化能力。
关键设计:在LLM标注阶段,采用了基于规则和关键词匹配的方法,从牙科报告中提取牙齿状况的标签。在MAE预训练阶段,采用了随机掩码策略,对X光片的部分区域进行遮挡,并训练模型重建被遮挡的区域。在半监督分类阶段,使用了ViT作为分类器,并采用了交叉熵损失函数和一致性正则化损失函数,来优化模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在两个大型数据集上取得了显著的性能提升,Matthews相关系数达到或超过了基线指标。与人类医生的比较表明,该解决方案的准确度水平与初级专家相当,证明了其在实际应用中的潜力。此外,消融实验验证了LLM标注和MAE预训练的有效性。
🎯 应用场景
该研究成果可应用于辅助牙科医生进行诊断,提高诊断效率和准确性。通过自动分析全景X光片,可以快速识别牙齿状况,为患者提供更及时和个性化的治疗方案。此外,该方法还可以用于大规模的牙科疾病筛查,降低医疗成本,提高公共卫生水平。
📄 摘要(原文)
Dental panoramic radiographs offer vast diagnostic opportunities, but training supervised deep learning networks for automatic analysis of those radiology images is hampered by a shortage of labeled data. Here, a different perspective on this problem is introduced. A semi-supervised learning framework is proposed to classify thirteen dental conditions on panoramic radiographs, with a particular emphasis on teeth. Large language models were explored to annotate the most common dental conditions based on dental reports. Additionally, a masked autoencoder was employed to pre-train the classification neural network, and a Vision Transformer was used to leverage the unlabeled data. The analyses were validated using two of the most extensive datasets in the literature, comprising 8,795 panoramic radiographs and 8,029 paired reports and images. Encouragingly, the results consistently met or surpassed the baseline metrics for the Matthews correlation coefficient. A comparison of the proposed solution with human practitioners, supported by statistical analysis, highlighted its effectiveness and performance limitations; based on the degree of agreement among specialists, the solution demonstrated an accuracy level comparable to that of a junior specialist.