Bridging visual saliency and large language models for explainable deep learning in medical imaging
作者: Paul Valery Nguezet, Elie Tagne Fute, Yusuf Brima, Benoit Martin Azanguezet, Marcellin Atemkeng
分类: cs.CV, cs.LG
发布日期: 2026-05-07
💡 一句话要点
提出结合视觉显著性和大语言模型的医学影像可解释深度学习框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学影像 深度学习 可解释性 视觉显著性 大型语言模型
📋 核心要点
- 深度学习在医学影像领域应用受限,主要原因是模型缺乏可解释性,难以获得临床信任。
- 该论文提出一种多模态框架,结合CNN、视觉显著性和LLM,生成放射学风格的诊断报告。
- 实验表明,该框架在脑肿瘤分类任务上表现良好,并能提供具有临床意义的可解释性结果。
📝 摘要(中文)
深度学习模型的不透明性是其在医学影像临床应用中的一个重要障碍。本文提出了一种多模态可解释性框架,弥合了卷积神经网络(CNN)预测与临床可操作的脑肿瘤分类见解之间的差距,利用大型语言模型(LLM)提供人类可解释的诊断叙述。该框架通过三个耦合阶段运行:首先,通过双输出混合公式扩展九个CNN架构,同时优化分类头和分割头,从而实现空间上更丰富的特征学习。其次,应用视觉显著性归因方法(Grad-CAM、Grad-CAM++和ScoreCAM)生成类区分热图,并通过自适应百分比阈值流水线将其细化为二元肿瘤掩码。第三,将生成的掩码映射到Harvard-Oxford皮质图谱,将像素级证据转换为命名的神经解剖结构,并将提取的发现编码为结构化的JSON文件,以调节三个LLM(Grok3、Mistral和LLaMA)生成连贯的放射学风格诊断报告。在包含三个肿瘤类别的4,834张对比增强T1加权脑MRI图像的数据集上进行评估,InceptionResNetV2实现了最高的分类性能,而Grad-CAM++产生了最佳的分割重叠。在语言模型中,Grok3在词汇多样性和连贯性方面领先,而LLaMA实现了最高的易读性得分。通过将视觉、解剖和语言模态集成到统一的流水线中,该框架生成的技术上可靠且有意义的可解释性,从而提高了人工智能辅助脑肿瘤诊断的透明度和临床责任。
🔬 方法详解
问题定义:现有深度学习模型在医学影像分析中,特别是脑肿瘤分类任务中,存在“黑盒”问题,即模型预测结果缺乏可解释性,医生难以理解模型做出判断的依据,从而影响了临床采纳。现有方法通常只关注分类精度,忽略了模型的可解释性,无法提供临床医生所需的诊断依据。
核心思路:该论文的核心思路是将视觉显著性分析与大型语言模型相结合,利用视觉显著性方法定位图像中与肿瘤相关的区域,然后利用大型语言模型将这些区域的解剖学信息转化为放射学风格的诊断报告,从而提供可解释的诊断结果。这种方法旨在弥合深度学习模型预测与临床可操作的见解之间的差距。
技术框架:该框架包含三个主要阶段:1) 特征学习阶段:使用双输出混合公式扩展CNN架构,同时优化分类头和分割头,以学习更丰富的空间特征。2) 显著性分析阶段:应用Grad-CAM、Grad-CAM++和ScoreCAM等视觉显著性方法生成热图,并通过自适应阈值处理生成二元肿瘤掩码。3) 报告生成阶段:将肿瘤掩码映射到Harvard-Oxford皮质图谱,提取神经解剖结构信息,并将其编码为JSON文件,然后利用LLM生成放射学风格的诊断报告。
关键创新:该论文的关键创新在于将视觉显著性分析与大型语言模型相结合,构建了一个端到端的可解释性框架。通过这种方式,模型不仅可以进行准确的分类,还可以提供具有临床意义的解释,从而提高了模型的可信度和临床应用价值。
关键设计:在特征学习阶段,使用了双输出混合公式,同时优化分类和分割任务,以提高特征的表达能力。在显著性分析阶段,使用了自适应阈值处理方法,以提高肿瘤掩码的准确性。在报告生成阶段,使用了Harvard-Oxford皮质图谱,将像素级证据转化为神经解剖结构信息。选择了Grok3、Mistral和LLaMA三种LLM,并比较了它们在生成诊断报告方面的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,InceptionResNetV2在脑肿瘤分类任务上取得了最高的分类性能,Grad-CAM++产生了最佳的分割重叠。Grok3在词汇多样性和连贯性方面表现最佳,LLaMA在易读性方面表现最佳。这些结果验证了该框架的有效性,并表明其在提供可解释的诊断报告方面具有潜力。
🎯 应用场景
该研究成果可应用于辅助医生进行脑肿瘤诊断,提高诊断效率和准确性。通过提供可解释的诊断报告,增强医生对AI辅助诊断的信任度,促进AI技术在医学影像领域的临床应用。未来可扩展到其他医学影像分析任务,如肺结节检测、骨折诊断等。
📄 摘要(原文)
The opaque nature of deep learning models remains a significant barrier to their clinical adoption in medical imaging. This paper presents a multimodal explainability framework that bridges the gap between convolutional neural network (CNN) predictions and clinically actionable insights for brain tumor classification, leveraging large language models (LLMs) to deliver human-interpretable diagnostic narratives. The proposed framework operates through three coupled stages. First, nine CNN architectures are extended with a dual-output hybrid formulation that simultaneously optimises a classification head and a segmentation head, enabling spatially richer feature learning. Second, visual saliency attribution methods, namely Grad-CAM, Grad-CAM++, and ScoreCAM, are applied to generate class-discriminative heatmaps, which are subsequently refined into binary tumor masks via an adaptive percentile thresholding pipeline. Third, the resulting masks are mapped onto the Harvard-Oxford cortical atlas to translate pixel-level evidence into named neuroanatomical structures, and the extracted findings are encoded into a structured JSON file that conditions three LLMs (Grok3, Mistral, and LLaMA) to generate coherent, radiological-style diagnostic reports. Evaluated on a dataset of 4,834 contrast-enhanced T1-weighted brain MRI images spanning three tumor classes, InceptionResNetV2 achieved the highest classification performance and Grad-CAM++ yielded the best segmentation overlap. Among the language models, Grok3 led in lexical diversity and coherence, while LLaMA achieved the highest readability score. By integrating visual, anatomical, and linguistic modalities into a unified pipeline, the framework produces explanations that are technically grounded and meaningfully interpretable, advancing the transparency and clinical accountability of artificial intelligence assisted brain tumor diagnosis.