Multimodal AI on Wound Images and Clinical Notes for Home Patient Referral
作者: Reza Saadati Fard, Emmanuel Agu, Palawat Busaranuvong, Deepak Kumar, Shefalika Gautam, Bengisu Tulu, Diane Strong
分类: cs.LG, cs.CV, eess.IV
发布日期: 2025-01-22
备注: arXiv admin note: text overlap with arXiv:2208.05051 by other authors
💡 一句话要点
提出DM-WAT,利用多模态AI辅助居家护理慢性伤口患者的转诊决策。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 慢性伤口护理 转诊决策 图像文本融合 可解释性AI
📋 核心要点
- 现有慢性伤口护理中,居家护士经验不足导致转诊决策错误或延误,影响患者治疗效果。
- DM-WAT利用多模态AI,融合伤口图像和临床笔记信息,辅助护士进行更准确的转诊决策。
- 实验结果表明,DM-WAT的准确率达到77%,F1分数达到70%,优于现有方法,并提供可解释性分析。
📝 摘要(中文)
慢性伤口影响着850万美国人,特别是老年人和糖尿病患者。这些伤口可能需要长达9个月的时间才能愈合,因此定期护理对于确保愈合和预防截肢等严重后果至关重要。许多患者在家中接受由伤口护理经验各异的护士提供的护理,导致护理不一致。问题伤口应转诊给伤口专家,但非临床环境中的转诊决策通常是错误的、延迟的或不必要的。本文介绍了一种深度多模态伤口评估工具(DM-WAT),该工具是一个机器学习框架,旨在帮助居家护士决定是否转诊慢性伤口患者。DM-WAT分析智能手机拍摄的伤口图像和电子健康记录(EHR)中的临床笔记。它使用Vision Transformer(ViT)DeiT-Base-Distilled从图像中提取视觉特征,并使用DeBERTa-base从临床笔记中提取文本特征。DM-WAT使用中间融合方法结合视觉和文本特征。为了应对小型且不平衡数据集带来的挑战,它集成了图像和文本增强以及迁移学习,以实现高性能。在评估中,DM-WAT实现了77%±3%的准确率和70%±2%的F1分数,优于以往的方法。Score-CAM和Captum解释算法提供了对影响推荐的图像和文本输入的特定部分的见解,从而增强了解释性和信任度。
🔬 方法详解
问题定义:论文旨在解决慢性伤口居家护理中,由于护理人员经验不足导致的转诊决策不准确问题。现有方法依赖人工评估,主观性强,易出错,可能导致不必要的转诊或延误治疗。
核心思路:论文的核心思路是利用多模态深度学习,融合伤口图像的视觉信息和临床笔记的文本信息,构建一个客观、准确的转诊决策支持系统。通过结合图像和文本信息,可以更全面地了解伤口状况,从而做出更合理的转诊建议。
技术框架:DM-WAT框架包含以下主要模块:1) 图像特征提取:使用DeiT-Base-Distilled Vision Transformer提取伤口图像的视觉特征。2) 文本特征提取:使用DeBERTa-base模型提取临床笔记的文本特征。3) 特征融合:采用中间融合方法,将视觉特征和文本特征进行融合。4) 分类器:使用融合后的特征进行转诊决策分类。5) 可解释性分析:使用Score-CAM和Captum等算法,对模型的决策过程进行解释,提高模型的可信度。
关键创新:论文的关键创新在于:1) 多模态融合:将伤口图像和临床笔记信息进行有效融合,提升了转诊决策的准确性。2) 数据增强:针对小样本和不平衡数据集,采用了图像和文本增强技术,提高了模型的泛化能力。3) 可解释性:通过可解释性分析,揭示了模型决策的关键因素,增强了用户对模型的信任。
关键设计:在图像特征提取方面,选择了DeiT-Base-Distilled,这是一种轻量级的Vision Transformer,适合在资源有限的设备上部署。在文本特征提取方面,选择了DeBERTa-base,这是一种在自然语言处理任务中表现出色的预训练模型。在特征融合方面,采用了中间融合方法,这种方法可以在一定程度上保留原始特征的信息。为了解决数据不平衡问题,使用了加权交叉熵损失函数。
🖼️ 关键图片
📊 实验亮点
DM-WAT在慢性伤口转诊决策任务上取得了显著的性能提升,准确率达到77%±3%,F1分数达到70%±2%,优于以往的方法。通过Score-CAM和Captum等可解释性分析工具,可以清晰地了解模型决策的关键因素,增强了模型的可信度。
🎯 应用场景
该研究成果可应用于慢性伤口居家护理领域,辅助护士进行更准确的转诊决策,减少不必要的转诊,缩短患者等待时间,提高治疗效果。此外,该技术还可扩展到其他需要多模态信息融合的医疗诊断场景,例如皮肤病诊断、眼科疾病诊断等,具有广阔的应用前景。
📄 摘要(原文)
Chronic wounds affect 8.5 million Americans, particularly the elderly and patients with diabetes. These wounds can take up to nine months to heal, making regular care essential to ensure healing and prevent severe outcomes like limb amputations. Many patients receive care at home from visiting nurses with varying levels of wound expertise, leading to inconsistent care. Problematic, non-healing wounds should be referred to wound specialists, but referral decisions in non-clinical settings are often erroneous, delayed, or unnecessary. This paper introduces the Deep Multimodal Wound Assessment Tool (DM-WAT), a machine learning framework designed to assist visiting nurses in deciding whether to refer chronic wound patients. DM-WAT analyzes smartphone-captured wound images and clinical notes from Electronic Health Records (EHRs). It uses DeiT-Base-Distilled, a Vision Transformer (ViT), to extract visual features from images and DeBERTa-base to extract text features from clinical notes. DM-WAT combines visual and text features using an intermediate fusion approach. To address challenges posed by a small and imbalanced dataset, it integrates image and text augmentation with transfer learning to achieve high performance. In evaluations, DM-WAT achieved 77% with std 3% accuracy and a 70% with std 2% F1 score, outperforming prior approaches. Score-CAM and Captum interpretation algorithms provide insights into specific parts of image and text inputs that influence recommendations, enhancing interpretability and trust.