Case-Aware Medical Image Classification with Multimodal Knowledge Graphs and Reliability-Guided Refinement
作者: Yiming Xu, Yixuan Liu, Yuhang Zhang, Ling Zheng, Yihan Wang, Qi Song
分类: cs.CV, cs.AI
发布日期: 2026-05-21
💡 一句话要点
提出基于多模态知识图谱和可靠性引导的病例感知医学图像分类框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学图像分类 多模态知识图谱 病例感知推理 图注意力网络 跨模态学习
📋 核心要点
- 现有医学图像分类方法依赖孤立的视觉证据,忽略了临床诊断中相似病例和相关症状的重要性。
- 该论文提出一种基于多模态知识图谱的病例感知推理框架,通过检索相似病例并构建知识图谱来辅助诊断。
- 实验结果表明,该方法在多个医学图像数据集上优于现有基线,验证了所提出框架的有效性。
📝 摘要(中文)
深度学习在医学图像分类方面取得了显著进展,但现有方法大多依赖孤立的视觉证据,无法有效利用相似病例或外部知识。为了模拟临床诊断过程,本文提出了一种框架,该框架使用多模态知识图谱进行病例感知推理,以实现可解释的医学图像诊断。给定输入图像,该方法从自适应检索的相似病例构建多模态知识图谱,从而更有效地利用相关样本。进一步引入知识传播和注入机制,其中以图像为中心的图注意力网络传播知识语义以获得基于病例的特征,然后通过双向跨模态注意力机制将这些特征注入到视觉表示中以进行跨模态对齐。为了减轻噪声检索的影响,设计了一种置信度校准的决策细化方案,该方案通过联合考虑预测置信度和样本相似性来估计每个检索病例的可靠性,自适应地调整其对最终预测的贡献,并提供可解释的病例级别证据。在多个医学成像数据集上的大量实验表明,该方法始终优于强大的基线,并且消融研究验证了每个组件的有效性。
🔬 方法详解
问题定义:现有医学图像分类方法主要依赖于孤立的视觉信息,忽略了临床诊断中医生会参考相似病例及其相关症状的经验。这种孤立的处理方式限制了模型对上下文信息的理解,降低了诊断的准确性和可解释性。因此,如何有效地利用历史病例信息,提升医学图像分类的性能和可解释性是一个关键问题。
核心思路:该论文的核心思路是模拟医生在诊断过程中的病例参考行为,通过构建多模态知识图谱来整合相似病例的信息,并利用图神经网络进行知识传播和推理。通过将视觉信息与病例信息相结合,模型可以更好地理解图像的上下文,从而提高分类的准确性和可解释性。同时,为了解决检索病例可能存在的噪声问题,引入了置信度校准的决策细化方案。
技术框架:整体框架包含以下几个主要模块:1) 相似病例检索:根据输入图像检索相似的历史病例。2) 多模态知识图谱构建:基于检索到的病例构建多模态知识图谱,节点包括图像、病例信息等,边表示它们之间的关系。3) 知识传播和注入:使用图注意力网络在知识图谱上进行知识传播,并将病例特征注入到视觉表示中,实现跨模态对齐。4) 置信度校准的决策细化:根据预测置信度和样本相似性评估检索病例的可靠性,并自适应地调整其对最终预测的贡献。
关键创新:该论文的关键创新在于:1) 提出了基于多模态知识图谱的病例感知推理框架,将相似病例的信息融入到医学图像分类中。2) 引入了知识传播和注入机制,通过图注意力网络和跨模态注意力机制实现视觉信息和病例信息的有效融合。3) 设计了置信度校准的决策细化方案,减轻了噪声检索的影响,提高了模型的鲁棒性。
关键设计:在知识图谱构建方面,使用了图像特征和病例信息作为节点,病例之间的相似度作为边权重。图注意力网络使用多头注意力机制,学习节点之间的关系。跨模态注意力机制使用双向注意力,实现视觉特征和病例特征的相互增强。置信度校准的决策细化方案使用 sigmoid 函数将置信度和相似度映射到 [0, 1] 之间,并将其作为权重来调整病例对最终预测的贡献。损失函数包括分类损失和知识图谱学习损失。
🖼️ 关键图片
📊 实验亮点
在多个医学图像数据集上的实验结果表明,该方法 consistently 优于强大的基线模型。例如,在 XXX 数据集上,该方法相比于 SOTA 模型提升了 X%。消融实验验证了每个组件的有效性,证明了多模态知识图谱、知识传播和注入机制以及置信度校准的决策细化方案对性能提升的贡献。
🎯 应用场景
该研究成果可应用于辅助医学诊断,帮助医生更准确、更高效地进行疾病诊断。通过整合历史病例信息,该方法可以提供更全面的诊断依据,减少误诊和漏诊的风险。此外,该方法的可解释性也使其能够为医生提供病例级别的证据,增强医生对诊断结果的信任。未来,该技术有望在远程医疗、智能影像分析等领域发挥重要作用。
📄 摘要(原文)
Deep learning has brought significant progress to medical image classification, yet most existing methods still rely on isolated visual evidence and cannot effectively leverage similar cases or external knowledge. In clinical practice, diagnosis is typically supported by historical similar cases and their associated symptoms. To simulate this diagnostic process, we propose a framework that performs case-aware reasoning using multimodal knowledge graphs for explainable medical image diagnosis. Given an input image, our method constructs a multimodal knowledge graph from adaptively retrieved similar cases, enabling more effective utilization of related samples. We further introduce a knowledge propagation and injection mechanism, where an image-centric Graph Attention Network propagates knowledge semantics to obtain case-based features, followed by a bidirectional cross-modal attention mechanism that injects these features into visual representations for cross-modal alignment. To mitigate noisy retrieval, we design a confidence-calibrated decision refinement scheme that estimates the reliability of each retrieved case by jointly considering prediction confidence and sample similarity, adaptively adjusting its contribution to the final prediction and providing interpretable case-level evidence. Extensive experiments on multiple medical imaging datasets show that our approach consistently outperforms strong baselines, and ablation studies validate the effectiveness of each component. The source code is publicly available at https://anonymous.4open.science/r/MKG-CARE-8B7B.