REMEMBER: Retrieval-based Explainable Multimodal Evidence-guided Modeling for Brain Evaluation and Reasoning in Zero- and Few-shot Neurodegenerative Diagnosis
作者: Duy-Cat Can, Quang-Huy Tang, Huong Ha, Binh T. Nguyen, Oliver Y. Chén
分类: cs.CV, cs.AI, cs.CL, cs.LG, q-bio.QM
发布日期: 2025-04-12
💡 一句话要点
REMEMBER:一种基于检索、可解释的多模态证据引导模型,用于零样本和少样本神经退行性疾病诊断。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 神经退行性疾病诊断 阿尔茨海默病 零样本学习 少样本学习 多模态学习 可解释性 病例检索
📋 核心要点
- 现有深度学习模型依赖大规模标注数据,且常为“黑盒”,限制了其在临床小样本或无标签数据集上的应用。
- REMEMBER通过检索相似病例,结合影像和文本信息,模拟临床决策过程,实现零样本和少样本诊断。
- 实验表明,REMEMBER在零样本和少样本场景下表现出色,并提供可解释的诊断报告,具有实际应用价值。
📝 摘要(中文)
本文提出了一种新的机器学习框架REMEMBER,即基于检索、可解释的多模态证据引导建模,用于通过参考推理过程促进零样本和少样本阿尔茨海默病诊断。REMEMBER首先使用专家注释的参考数据训练一个对比对齐的视觉-文本模型,并扩展伪文本模态,以编码异常类型、诊断标签和综合临床描述。然后在推理时,REMEMBER从一个精心策划的数据集中检索相似的、经过人工验证的病例,并通过一个专门的证据编码模块和基于注意力的推理头整合它们的上下文信息。这种证据引导的设计使REMEMBER能够通过将预测建立在检索到的图像和文本上下文中来模仿真实的临床决策过程。REMEMBER输出诊断预测以及可解释的报告,包括参考图像和与临床工作流程对齐的解释。实验结果表明,REMEMBER实现了强大的零样本和少样本性能,并提供了一个强大且可解释的框架,用于现实世界中基于神经影像的诊断,尤其是在数据有限的情况下。
🔬 方法详解
问题定义:现有深度学习方法在神经退行性疾病诊断中,需要大量标注数据,且模型缺乏可解释性,难以应用于临床实践中数据量小或无标注的场景。因此,需要一种能够在少量数据甚至零数据情况下进行诊断,并提供可解释性的方法。
核心思路:REMEMBER的核心思路是模仿医生基于过往病例进行诊断的思维模式。通过检索与待诊断病例相似的参考病例,并结合参考病例的影像和文本信息,辅助诊断决策。这种基于检索的推理方式,不仅可以利用已有的知识,还能提供诊断依据,增强模型的可解释性。
技术框架:REMEMBER框架主要包含以下几个模块:1) 对比对齐的视觉-文本模型:使用专家标注的参考数据,训练一个能够将脑部MRI图像和对应的文本描述对齐的模型。2) 伪文本模态扩展:通过伪标签技术,扩展文本模态,包含异常类型、诊断标签和临床描述等信息。3) 病例检索模块:从参考数据集中检索与待诊断病例相似的病例。4) 证据编码模块:对检索到的参考病例的影像和文本信息进行编码,提取关键证据。5) 基于注意力的推理头:利用注意力机制,整合提取的证据,进行诊断预测,并生成可解释的报告。
关键创新:REMEMBER的关键创新在于其基于检索的推理方式和多模态证据引导的设计。与传统的端到端深度学习模型不同,REMEMBER通过检索相似病例,将诊断决策建立在已有的知识基础上,从而提高了模型的泛化能力和可解释性。同时,多模态证据引导的设计,能够充分利用影像和文本信息,提高诊断的准确性。
关键设计:REMEMBER的关键设计包括:1) 对比学习损失函数:用于训练视觉-文本模型,使得相似的图像和文本在特征空间中距离更近。2) 伪标签生成策略:用于扩展文本模态,提高模型的诊断能力。3) 注意力机制:用于整合提取的证据,突出关键信息。具体的网络结构和参数设置在论文中有详细描述,此处不再赘述。
🖼️ 关键图片
📊 实验亮点
REMEMBER在零样本和少样本阿尔茨海默病诊断任务上取得了显著成果。实验结果表明,REMEMBER在零样本设置下,性能优于现有方法,并在少样本设置下,进一步提升了诊断准确率。此外,REMEMBER还能够提供可解释的诊断报告,包括参考图像和与临床工作流程对齐的解释,增强了模型的实用性。
🎯 应用场景
REMEMBER具有广泛的应用前景,可用于阿尔茨海默病等神经退行性疾病的早期诊断和辅助诊断。该模型尤其适用于数据量有限的临床场景,能够帮助医生更准确、更高效地进行诊断,并提供可解释的诊断依据,提高患者的信任度。未来,REMEMBER还可以扩展到其他医学影像诊断领域,为临床决策提供更强大的支持。
📄 摘要(原文)
Timely and accurate diagnosis of neurodegenerative disorders, such as Alzheimer's disease, is central to disease management. Existing deep learning models require large-scale annotated datasets and often function as "black boxes". Additionally, datasets in clinical practice are frequently small or unlabeled, restricting the full potential of deep learning methods. Here, we introduce REMEMBER -- Retrieval-based Explainable Multimodal Evidence-guided Modeling for Brain Evaluation and Reasoning -- a new machine learning framework that facilitates zero- and few-shot Alzheimer's diagnosis using brain MRI scans through a reference-based reasoning process. Specifically, REMEMBER first trains a contrastively aligned vision-text model using expert-annotated reference data and extends pseudo-text modalities that encode abnormality types, diagnosis labels, and composite clinical descriptions. Then, at inference time, REMEMBER retrieves similar, human-validated cases from a curated dataset and integrates their contextual information through a dedicated evidence encoding module and attention-based inference head. Such an evidence-guided design enables REMEMBER to imitate real-world clinical decision-making process by grounding predictions in retrieved imaging and textual context. Specifically, REMEMBER outputs diagnostic predictions alongside an interpretable report, including reference images and explanations aligned with clinical workflows. Experimental results demonstrate that REMEMBER achieves robust zero- and few-shot performance and offers a powerful and explainable framework to neuroimaging-based diagnosis in the real world, especially under limited data.