Sumotosima: A Framework and Dataset for Classifying and Summarizing Otoscopic Images

📄 arXiv: 2408.06755v1 📥 PDF

作者: Eram Anwarul Khan, Anas Anwarul Haq Khan

分类: cs.CV, cs.CL

发布日期: 2024-08-13

备注: Work in Progress

🔗 代码/项目: GITHUB


💡 一句话要点

Sumotosima:用于耳镜图像分类与摘要的深度学习框架与数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 耳镜图像分析 深度学习 多模态摘要 知识增强 医疗人工智能

📋 核心要点

  1. 现有耳镜图像分析缺乏专用数据集和高效的自动摘要方法,影响诊断效率和患者理解。
  2. Sumotosima框架结合深度学习分类和知识增强多模态BART摘要,优化了资源利用率。
  3. 实验表明,Sumotosima在分类和摘要任务中均显著优于现有方法,提升了诊断和沟通效果。

📝 摘要(中文)

本文提出了一种新颖的资源高效的深度学习和Transformer框架Sumotosima,用于耳镜图像的分类和摘要,这是一个端到端的流程。该框架结合了Triplet损失和交叉熵损失。此外,使用了知识增强的多模态BART,其输入融合了文本和图像嵌入。目标是为患者提供易于理解的耳镜图像摘要,确保清晰度和效率。由于缺乏现有数据集,我们创建了自己的OCASD(耳镜分类和摘要数据集),其中包括500张图像,包含5个独特的类别,并由耳鼻喉科医生标注了类别和摘要。在分类任务中,Sumotosima的准确率达到了98.03%,分别比K近邻、随机森林和支持向量机高7.00%、3.10%和3.01%。在摘要方面,Sumotosima的ROUGE分数分别比GPT-4o和LLaVA高88.53%和107.57%。代码和数据集已公开。

🔬 方法详解

问题定义:耳镜检查是诊断耳道和鼓膜疾病的重要手段,但缺乏自动化的图像分析和摘要工具。现有方法或者依赖人工,效率低下,或者缺乏针对耳镜图像的专用数据集和模型,导致准确率和可解释性不足。因此,需要一种能够自动分类耳镜图像并生成易于理解的摘要的系统,以提高诊断效率和患者理解。

核心思路:Sumotosima的核心思路是利用深度学习进行图像分类,然后利用知识增强的多模态Transformer模型生成摘要。通过结合图像特征和文本知识,模型能够生成更准确、更易于理解的摘要,帮助患者更好地了解自己的病情。这种方法旨在弥合医生和患者之间的沟通鸿沟。

技术框架:Sumotosima框架包含两个主要模块:图像分类模块和摘要生成模块。图像分类模块使用深度学习模型对耳镜图像进行分类,识别图像中的疾病类型。摘要生成模块使用知识增强的多模态BART模型,该模型接收图像嵌入和文本知识作为输入,生成耳镜图像的摘要。整个流程是端到端的,可以自动完成图像分类和摘要生成任务。

关键创新:Sumotosima的关键创新在于以下几点:1) 提出了一个专门用于耳镜图像分类和摘要的数据集OCASD。2) 结合了Triplet损失和交叉熵损失,优化了图像分类模型的性能。3) 使用了知识增强的多模态BART模型,提高了摘要的质量和可读性。与现有方法相比,Sumotosima能够更准确地分类耳镜图像,并生成更易于理解的摘要。

关键设计:在图像分类模块中,使用了深度卷积神经网络,并结合了Triplet损失和交叉熵损失进行训练。Triplet损失用于学习图像之间的相似性关系,交叉熵损失用于分类。在摘要生成模块中,使用了知识增强的多模态BART模型,该模型在BART模型的基础上,加入了知识图谱的信息,提高了摘要的质量。图像嵌入和文本知识通过融合层进行融合,然后输入到BART模型中进行摘要生成。

🖼️ 关键图片

fig_0

📊 实验亮点

Sumotosima在耳镜图像分类任务中取得了98.03%的准确率,显著优于K近邻(7.00%)、随机森林(3.10%)和支持向量机(3.01%)。在摘要生成任务中,Sumotosima的ROUGE分数分别比GPT-4o和LLaVA高88.53%和107.57%,表明其在分类和摘要任务中均具有显著优势。

🎯 应用场景

Sumotosima可应用于远程医疗、辅助诊断和患者教育等领域。医生可以利用该系统快速分析耳镜图像,提高诊断效率。患者可以通过阅读自动生成的摘要,更好地了解自己的病情,从而提高治疗依从性。该研究有助于推动医疗人工智能的发展,提高医疗服务的质量和可及性。

📄 摘要(原文)

Otoscopy is a diagnostic procedure to examine the ear canal and eardrum using an otoscope. It identifies conditions like infections, foreign bodies, ear drum perforations and ear abnormalities. We propose a novel resource efficient deep learning and transformer based framework, Sumotosima (Summarizer for otoscopic images), an end-to-end pipeline for classification followed by summarization. Our framework works on combination of triplet and cross-entropy losses. Additionally, we use Knowledge Enhanced Multimodal BART whose input is fused textual and image embedding. The objective is to provide summaries that are well-suited for patients, ensuring clarity and efficiency in understanding otoscopic images. Given the lack of existing datasets, we have curated our own OCASD (Otoscopic Classification And Summary Dataset), which includes 500 images with 5 unique categories annotated with their class and summaries by Otolaryngologists. Sumotosima achieved a result of 98.03%, which is 7.00%, 3.10%, 3.01% higher than K-Nearest Neighbors, Random Forest and Support Vector Machines, respectively, in classification tasks. For summarization, Sumotosima outperformed GPT-4o and LLaVA by 88.53% and 107.57% in ROUGE scores, respectively. We have made our code and dataset publicly available at https://github.com/anas2908/Sumotosima