VisTA: Vision-Text Alignment Model with Contrastive Learning using Multimodal Data for Evidence-Driven, Reliable, and Explainable Alzheimer's Disease Diagnosis

📄 arXiv: 2502.01535v1 📥 PDF

作者: Duy-Cat Can, Linh D. Dang, Quang-Huy Tang, Dang Minh Ly, Huong Ha, Guillaume Blanc, Oliver Y. Chén, Binh T. Nguyen

分类: cs.CV, cs.CL, q-bio.QM

发布日期: 2025-02-03


💡 一句话要点

VisTA:利用多模态对比学习实现证据驱动、可靠且可解释的阿尔茨海默病诊断

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 阿尔茨海默病诊断 多模态学习 对比学习 可解释性AI 影像文本对齐

📋 核心要点

  1. 现有AI在AD诊断中缺乏可解释性,难以提供临床决策所需的证据。
  2. VisTA模型通过对比学习对齐图像与文本描述,提供证据驱动的诊断解释。
  3. VisTA仅用少量数据微调,在异常检索和痴呆预测上均显著优于基线模型。

📝 摘要(中文)

本研究旨在解决利用高维影像学图像评估阿尔茨海默病(AD)的临床挑战,并提出一种可预测且可解释的AI模型。我们提出了VisTA(Vision-Text Alignment Model),一种多模态语言-视觉模型,它通过对比学习进行辅助,以优化疾病预测和基于证据的、可解释的临床决策解释。VisTA基于BiomedCLIP构建,并使用对比学习进行微调,以对齐图像与经过验证的异常及其描述。VisTA使用包含图像、异常类型和医学专家验证的描述的参考数据集进行训练,并产生四种输出:预测的异常类型、与参考病例的相似性、证据驱动的解释和最终的AD诊断。实验结果表明,VisTA在异常检索和痴呆预测方面均取得了显著的准确率提升,并且生成的解释与人类专家的解释高度一致。

🔬 方法详解

问题定义:阿尔茨海默病(AD)的诊断依赖于高维影像学图像,但现有AI模型在诊断过程中缺乏透明度和可解释性,难以提供支持临床决策的证据。现有方法难以将影像信息与医学知识有效结合,导致诊断结果缺乏可靠性和可信度。

核心思路:VisTA的核心思路是利用多模态对比学习,将影像数据与对应的文本描述对齐,从而使模型能够理解影像中的异常并生成可解释的诊断依据。通过对比学习,模型学习到图像和文本之间的关联,从而能够根据图像检索相关的异常描述,并基于这些描述进行诊断。

技术框架:VisTA模型基于BiomedCLIP架构,包含图像编码器和文本编码器。首先,使用医学专家验证的图像-文本对构建参考数据集。然后,使用对比学习目标函数对模型进行微调,使得相似的图像-文本对在特征空间中距离更近,不相似的距离更远。模型最终输出包括预测的异常类型、与参考病例的相似性、证据驱动的解释和最终的AD诊断。

关键创新:VisTA的关键创新在于利用对比学习将影像信息与医学知识进行有效融合,从而实现证据驱动的诊断。与传统的黑盒模型不同,VisTA能够提供可解释的诊断依据,增强了临床医生对诊断结果的信任度。此外,VisTA仅使用少量数据进行微调,即可取得显著的性能提升,表明其具有良好的泛化能力。

关键设计:VisTA使用InfoNCE损失函数进行对比学习,该损失函数旨在最大化正样本对之间的相似度,同时最小化负样本对之间的相似度。图像编码器和文本编码器均采用Transformer架构。在训练过程中,使用了数据增强技术来增加数据的多样性。模型的输出层设计用于预测异常类型、计算与参考病例的相似度,并生成证据驱动的解释。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VisTA模型仅使用170个样本进行微调,在异常检索方面达到了74%的准确率和0.87的AUC,相比基线模型分别提升了26%和0.74。在痴呆预测方面,VisTA达到了88%的准确率和0.82的AUC,相比基线模型分别提升了30%和0.57。此外,VisTA生成的解释与人类专家的解释高度一致,验证了其可解释性。

🎯 应用场景

VisTA模型可应用于阿尔茨海默病的早期诊断和辅助诊断,帮助临床医生更准确地评估患者的病情。该模型提供的可解释性诊断结果可以增强医生的诊断信心,并促进医患之间的沟通。未来,该模型可以扩展到其他疾病的诊断,并与其他临床数据(如基因组数据、病史等)相结合,实现更全面的疾病评估。

📄 摘要(原文)

Objective: Assessing Alzheimer's disease (AD) using high-dimensional radiology images is clinically important but challenging. Although Artificial Intelligence (AI) has advanced AD diagnosis, it remains unclear how to design AI models embracing predictability and explainability. Here, we propose VisTA, a multimodal language-vision model assisted by contrastive learning, to optimize disease prediction and evidence-based, interpretable explanations for clinical decision-making. Methods: We developed VisTA (Vision-Text Alignment Model) for AD diagnosis. Architecturally, we built VisTA from BiomedCLIP and fine-tuned it using contrastive learning to align images with verified abnormalities and their descriptions. To train VisTA, we used a constructed reference dataset containing images, abnormality types, and descriptions verified by medical experts. VisTA produces four outputs: predicted abnormality type, similarity to reference cases, evidence-driven explanation, and final AD diagnoses. To illustrate VisTA's efficacy, we reported accuracy metrics for abnormality retrieval and dementia prediction. To demonstrate VisTA's explainability, we compared its explanations with human experts' explanations. Results: Compared to 15 million images used for baseline pretraining, VisTA only used 170 samples for fine-tuning and obtained significant improvement in abnormality retrieval and dementia prediction. For abnormality retrieval, VisTA reached 74% accuracy and an AUC of 0.87 (26% and 0.74, respectively, from baseline models). For dementia prediction, VisTA achieved 88% accuracy and an AUC of 0.82 (30% and 0.57, respectively, from baseline models). The generated explanations agreed strongly with human experts' and provided insights into the diagnostic process. Taken together, VisTA optimize prediction, clinical reasoning, and explanation.