InSight: AI Mobile Screening Tool for Multiple Eye Disease Detection using Multimodal Fusion
作者: Ananya Raghu, Anisha Raghu, Alice S. Tang, Yannis M. Paulus, Tyson N. Kim, Tomiko T. Oskotsky
分类: eess.IV, cs.AI, cs.CV
发布日期: 2025-07-16
💡 一句话要点
InSight:一种基于多模态融合的AI移动眼科筛查工具,用于多种眼部疾病检测
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 眼科疾病筛查 多模态融合 深度学习 移动医疗 多任务学习
📋 核心要点
- 现有眼科疾病筛查在资源有限地区可及性低,限制了早期诊断和治疗。
- InSight结合患者元数据和眼底图像,利用多模态融合和多任务学习提高诊断准确性。
- 实验表明,InSight在多种图像条件下具有鲁棒性,且诊断准确率高,并能推广到智能手机和实验室图像。
📝 摘要(中文)
本研究旨在解决中低收入国家和资源匮乏地区眼科疾病筛查可及性有限的问题。我们开发了InSight,这是一款基于AI的应用程序,它结合患者元数据和眼底图像,能够准确诊断五种常见的眼部疾病,包括年龄相关性黄斑变性、青光眼、糖尿病视网膜病变(DR)、糖尿病性黄斑水肿和病理性近视。InSight采用三阶段流程:实时图像质量评估、疾病诊断模型和DR分级模型。疾病诊断模型包含三个关键创新:(a) 结合临床元数据和图像的多模态融合技术(MetaFusion);(b) 利用监督和自监督损失函数的预训练方法;(c) 同时预测5种疾病的多任务模型。我们使用BRSET(实验室采集图像)和mBRSET(智能手机采集图像)数据集,这两个数据集都包含临床元数据,用于模型训练和评估。
🔬 方法详解
问题定义:本研究旨在解决眼科疾病早期筛查在资源受限地区可及性差的问题。现有方法依赖昂贵的设备和专业人员,难以大规模普及,导致大量患者无法及时获得诊断和治疗。因此,需要一种低成本、便携式、高精度的眼科疾病筛查方案。
核心思路:InSight的核心思路是利用AI技术,将智能手机作为眼科疾病筛查的平台,结合患者的临床元数据和眼底图像,通过多模态融合和多任务学习,提高诊断的准确性和效率。这种方法降低了筛查成本,提高了可及性,并能同时诊断多种疾病。
技术框架:InSight包含三个主要阶段:1) 实时图像质量评估:用于过滤低质量的眼底图像,保证后续诊断的准确性。2) 疾病诊断模型:核心模块,利用MetaFusion技术融合临床元数据和图像特征,并采用预训练方法提高模型性能。3) DR分级模型:用于评估糖尿病视网膜病变的严重程度。整个流程旨在实现快速、准确、便捷的眼科疾病筛查。
关键创新:InSight的关键创新在于以下三点:1) MetaFusion多模态融合技术:将临床元数据和图像信息有效结合,提升诊断准确性。2) 结合监督和自监督学习的预训练方法:利用大量未标注数据提高模型泛化能力。3) 多任务模型:同时预测五种疾病,显著降低计算复杂度,提高效率。
关键设计:图像质量评估模块采用深度学习模型,训练目标是区分高质量和低质量图像。疾病诊断模型使用卷积神经网络提取图像特征,并与临床元数据融合。预训练阶段采用对比学习等自监督方法,提高模型对眼底图像特征的理解。多任务学习通过共享底层网络参数,减少模型参数量,提高训练效率。损失函数方面,采用交叉熵损失函数进行疾病分类,并根据疾病的患病率调整损失权重。
📊 实验亮点
实验结果表明,InSight的图像质量检查器准确率接近100%。多模态预训练疾病诊断模型在BRSET数据集上的平衡准确率比仅使用图像的模型高6%,在mBRSET数据集上高4%。此外,多任务模型比五个单独的模型计算效率提高了五倍,验证了InSight的有效性和高效性。
🎯 应用场景
InSight具有广泛的应用前景,尤其是在中低收入国家和资源匮乏地区。它可以作为一种低成本、便携式的眼科疾病筛查工具,帮助基层医疗机构进行大规模筛查,及早发现和治疗眼部疾病,降低致盲率。此外,InSight还可以用于远程医疗,专家可以通过手机远程诊断患者病情,提高医疗资源利用率。
📄 摘要(原文)
Background/Objectives: Age-related macular degeneration, glaucoma, diabetic retinopathy (DR), diabetic macular edema, and pathological myopia affect hundreds of millions of people worldwide. Early screening for these diseases is essential, yet access to medical care remains limited in low- and middle-income countries as well as in resource-limited settings. We develop InSight, an AI-based app that combines patient metadata with fundus images for accurate diagnosis of five common eye diseases to improve accessibility of screenings. Methods: InSight features a three-stage pipeline: real-time image quality assessment, disease diagnosis model, and a DR grading model to assess severity. Our disease diagnosis model incorporates three key innovations: (a) Multimodal fusion technique (MetaFusion) combining clinical metadata and images; (b) Pretraining method leveraging supervised and self-supervised loss functions; and (c) Multitask model to simultaneously predict 5 diseases. We make use of BRSET (lab-captured images) and mBRSET (smartphone-captured images) datasets, both of which also contain clinical metadata for model training/evaluation. Results: Trained on a dataset of BRSET and mBRSET images, the image quality checker achieves near-100% accuracy in filtering out low-quality fundus images. The multimodal pretrained disease diagnosis model outperforms models using only images by 6% in balanced accuracy for BRSET and 4% for mBRSET. Conclusions: The InSight pipeline demonstrates robustness across varied image conditions and has high diagnostic accuracy across all five diseases, generalizing to both smartphone and lab captured images. The multitask model contributes to the lightweight nature of the pipeline, making it five times computationally efficient compared to having five individual models corresponding to each disease.