MedMimic: Physician-Inspired Multimodal Fusion for Early Diagnosis of Fever of Unknown Origin

📄 arXiv: 2502.04794v2 📥 PDF

作者: Minrui Chen, Yi Zhou, Huidong Jiang, Yuhan Zhu, Guanjie Zou, Minqi Chen, Rong Tian, Hiroto Saigo

分类: eess.IV, cs.AI, cs.CV

发布日期: 2025-02-07 (更新: 2025-02-14)


💡 一句话要点

MedMimic:一种受医生诊断启发的多模态融合框架,用于不明原因发热的早期诊断

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 不明原因发热 早期诊断 预训练模型 自注意力机制

📋 核心要点

  1. 不明原因发热的诊断复杂,传统方法依赖专家经验,缺乏客观量化工具。
  2. MedMimic模仿医生诊断流程,融合PET/CT影像和临床数据,利用预训练模型提取特征,并通过自注意力机制进行有效融合。
  3. 实验结果表明,MedMimic在FUO诊断中显著优于传统机器学习和单模态深度学习方法,AUROC最高提升至0.9291。

📝 摘要(中文)

不明原因发热(FUO)的诊断一直是一个挑战。本文提出了MedMimic,这是一个受真实诊断过程启发的的多模态框架。它使用预训练模型,如DINOv2、Vision Transformer和ResNet-18,将高维18F-FDG PET/CT成像转换为低维、语义上有意义的特征。然后,一个可学习的基于自注意力机制的融合网络将这些成像特征与临床数据集成,用于分类。使用来自四川大学华西医院2017年至2023年的416例FUO患者病例,多模态融合分类网络(MFCN)在七项任务中实现了0.8654至0.9291的宏平均AUROC分数,优于传统的机器学习和单模态深度学习方法。消融研究和五重交叉验证进一步验证了其有效性。通过结合预训练大模型和深度学习的优势,MedMimic为疾病分类提供了一个有希望的解决方案。

🔬 方法详解

问题定义:论文旨在解决不明原因发热(FUO)的早期诊断难题。现有方法依赖医生经验,主观性强,且难以有效整合影像和临床等多模态数据。传统机器学习方法特征工程复杂,单模态深度学习方法无法充分利用多模态信息,诊断准确率有待提高。

核心思路:论文的核心思路是模仿医生诊断流程,将影像数据和临床数据进行有效融合。通过预训练模型提取影像特征,利用自注意力机制学习不同模态之间的关联性,从而实现更准确的疾病分类。这种设计旨在克服传统方法的局限性,提高诊断的客观性和准确性。

技术框架:MedMimic框架主要包含三个阶段:1) 特征提取阶段:使用预训练模型(DINOv2、Vision Transformer、ResNet-18)从PET/CT影像中提取低维、语义信息丰富的特征。2) 特征融合阶段:采用可学习的基于自注意力机制的融合网络(MFCN),将影像特征与临床数据进行融合。3) 分类阶段:利用融合后的特征进行疾病分类。整体流程模拟了医生综合分析影像和临床信息的诊断过程。

关键创新:论文的关键创新在于:1) 提出了一个受医生诊断过程启发的的多模态融合框架MedMimic。2) 利用预训练模型提取影像特征,减少了人工特征工程的依赖。3) 采用自注意力机制进行多模态融合,能够有效学习不同模态之间的关联性。与现有方法相比,MedMimic更注重模拟医生的诊断思维,能够更有效地利用多模态信息。

关键设计:在特征提取阶段,选择了DINOv2、Vision Transformer和ResNet-18等不同的预训练模型,以提取不同类型的影像特征。在特征融合阶段,自注意力机制的参数是可学习的,能够根据不同的任务自适应地调整不同模态的权重。损失函数使用了交叉熵损失函数,用于优化分类结果。网络结构方面,MFCN的具体层数和神经元数量未知,但强调了自注意力机制的重要性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MedMimic在416例FUO患者数据集上进行了验证,在七项分类任务中,MFCN的宏平均AUROC分数达到0.8654至0.9291,显著优于传统的机器学习和单模态深度学习方法。消融研究表明,多模态融合和自注意力机制对性能提升至关重要。五重交叉验证进一步验证了模型的泛化能力。

🎯 应用场景

MedMimic具有广泛的应用前景,可用于不明原因发热的早期诊断,辅助医生进行决策。该框架也可推广到其他疾病的诊断,特别是那些需要综合分析影像和临床数据的疾病。未来,MedMimic有望成为一种通用的多模态疾病诊断工具,提高诊断效率和准确性,改善患者的预后。

📄 摘要(原文)

Fever of unknown origin FUO remains a diagnostic challenge. MedMimic is introduced as a multimodal framework inspired by real-world diagnostic processes. It uses pretrained models such as DINOv2, Vision Transformer, and ResNet-18 to convert high-dimensional 18F-FDG PET/CT imaging into low-dimensional, semantically meaningful features. A learnable self-attention-based fusion network then integrates these imaging features with clinical data for classification. Using 416 FUO patient cases from Sichuan University West China Hospital from 2017 to 2023, the multimodal fusion classification network MFCN achieved macro-AUROC scores ranging from 0.8654 to 0.9291 across seven tasks, outperforming conventional machine learning and single-modality deep learning methods. Ablation studies and five-fold cross-validation further validated its effectiveness. By combining the strengths of pretrained large models and deep learning, MedMimic offers a promising solution for disease classification.