Knowledge-Augmented Multimodal Clinical Rationale Generation for Disease Diagnosis with Small Language Models

📄 arXiv: 2411.07611v5 📥 PDF

作者: Shuai Niu, Jing Ma, Hongzhan Lin, Liang Bai, Zhihua Wang, Yida Xu, Yunya Song, Xian Yang

分类: cs.CL, cs.AI

发布日期: 2024-11-12 (更新: 2025-07-13)

备注: 13 pages. 7 figures

期刊: This paper is accpeted by ACL2025(Main)


💡 一句话要点

提出ClinRaGen,通过知识增强的小语言模型进行多模态临床诊断和推理生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 临床诊断 推理生成 知识增强 小语言模型 推理蒸馏 可解释性

📋 核心要点

  1. 现有疾病诊断模型难以兼顾预测精度和推理可解释性,大型语言模型计算成本高昂,小型语言模型缺乏领域知识。
  2. ClinRaGen通过从LLM中蒸馏推理能力,并注入领域知识来增强SLM,从而实现可信的多模态推理生成。
  3. 实验结果表明,ClinRaGen在疾病诊断和推理生成方面达到了最先进的性能,验证了方法的有效性。

📝 摘要(中文)

疾病诊断需要可解释性,但现有模型难以平衡预测准确性和人类可理解的推理。大型语言模型(LLMs)具有强大的推理能力,但计算成本高,多模态推理能力受限。小型语言模型(SLMs)效率高,但缺乏整合多模态医学数据的高级推理能力。此外,LLMs和SLMs都缺乏领域知识,难以进行可信的推理。因此,我们提出了ClinRaGen,通过推理蒸馏利用LLM的推理能力,并注入领域知识来增强SLMs,以实现可信的多模态推理生成。关键创新包括一个顺序推理蒸馏框架,使SLMs具备与LLM相当的多模态推理能力,以及一个知识增强的注意力机制,该机制在同一编码空间中联合统一来自时间序列和文本数据的多模态表示,使其能够被SLMs自然地解释,同时结合领域知识以实现可靠的推理生成。在真实世界医学数据集上的实验表明,ClinRaGen在疾病诊断和推理生成方面取得了最先进的性能,证明了结合LLM驱动的推理和知识增强以提高可解释性的有效性。

🔬 方法详解

问题定义:论文旨在解决疾病诊断中模型可解释性不足的问题。现有方法,特别是依赖大型语言模型的方法,计算成本高昂且多模态推理能力受限。而小型语言模型虽然效率高,但缺乏足够的领域知识和推理能力,难以生成可信的诊断依据。

核心思路:论文的核心思路是利用大型语言模型的推理能力,通过推理蒸馏的方式迁移到小型语言模型中,同时注入领域知识,增强小型语言模型在医学领域的推理能力和可解释性。这样既能保证模型的效率,又能提高诊断的准确性和可信度。

技术框架:ClinRaGen的整体框架包含以下几个主要模块:1) 顺序推理蒸馏框架:利用LLM生成推理过程,然后将这些推理过程作为监督信号,训练SLM,使其具备LLM类似的推理能力。2) 知识增强的注意力机制:该机制用于融合来自时间序列和文本数据的多模态信息,并在融合过程中融入领域知识。3) 多模态编码器:用于将时间序列数据和文本数据编码到同一语义空间。

关键创新:论文的关键创新在于:1) 顺序推理蒸馏框架:通过逐步蒸馏LLM的推理过程,使SLM能够学习到复杂的多模态推理能力。2) 知识增强的注意力机制:将领域知识融入到多模态特征融合的过程中,提高了模型推理的可靠性。

关键设计:论文中,顺序推理蒸馏框架采用了一种逐步精炼的策略,通过多轮蒸馏,逐步提高SLM的推理能力。知识增强的注意力机制,通过引入外部知识图谱,为注意力权重计算提供额外的语义信息,从而提高特征融合的准确性。具体的损失函数设计和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ClinRaGen在真实世界医学数据集上取得了最先进的性能,证明了其有效性。具体性能数据和对比基线在摘要中提及,但未给出具体数值。该模型通过结合LLM驱动的推理和知识增强,显著提高了疾病诊断和推理生成的能力,为医学人工智能领域的研究提供了新的思路。

🎯 应用场景

该研究成果可应用于临床辅助诊断系统,帮助医生更准确、更快速地进行疾病诊断,并提供可解释的诊断依据。通过结合多模态医学数据和领域知识,该方法有望提高诊断的准确性和效率,减少误诊率,并为患者提供更个性化的治疗方案。未来,该技术还可扩展到其他医学领域,例如药物研发和疾病预测。

📄 摘要(原文)

Interpretation is critical for disease diagnosis, but existing models struggle to balance predictive accuracy with human-understandable rationales. While large language models (LLMs) offer strong reasoning abilities, their clinical use is limited by high computational costs and restricted multimodal reasoning ability. Small language models (SLMs) are efficient but lack advanced reasoning for integrating multimodal medical data. In addition, both LLMs and SLMs lack domain knowledge for trustworthy reasoning. Therefore, we propose ClinRaGen, enhancing SLMs by leveraging LLM-derived reasoning ability via rationale distillation and domain knowledge injection for trustworthy multimodal rationale generation. Key innovations include a sequential rationale distillation framework that equips SLMs with LLM-comparable multimodal reasoning abilities, and a knowledge-augmented attention mechanism that jointly unifies multimodal representation from time series and textual data in the same encoding space, enabling it to be naturally interpreted by SLMs while incorporating domain knowledge for reliable rationale generation. Experiments on real-world medical datasets show that ClinRaGen achieves state-of-the-art performance in disease diagnosis and rationale generation, demonstrating the effectiveness of combining LLM-driven reasoning with knowledge augmentation for improved interpretability.