RADAR: Enhancing Radiology Report Generation with Supplementary Knowledge Injection
作者: Wenjun Hou, Yi Cheng, Kaishuai Xu, Heng Li, Yan Hu, Wenjie Li, Jiang Liu
分类: cs.CV, cs.CL
发布日期: 2025-05-20 (更新: 2025-06-02)
备注: Accepted to ACL 2025 main
💡 一句话要点
RADAR:通过补充知识注入增强放射学报告生成
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 放射学报告生成 大型语言模型 知识注入 多模态学习 医学影像 临床诊断 知识检索
📋 核心要点
- 现有方法在放射学报告生成中,常忽略LLM自身已具备的领域知识,导致信息整合冗余。
- Radar框架通过提取LLM内部知识并注入外部检索的补充知识,系统性地提升报告生成质量。
- 实验结果表明,Radar在MIMIC-CXR等数据集上,显著提升了报告的语言质量和临床准确性。
📝 摘要(中文)
大型语言模型(LLMs)在包括放射学报告生成在内的各个领域都表现出了卓越的能力。以往的方法试图利用多模态LLMs来完成这项任务,并通过整合领域特定的知识检索来提高其性能。然而,这些方法通常忽略了LLMs内部已经嵌入的知识,导致了冗余的信息整合。为了解决这个局限性,我们提出了Radar,一个通过补充知识注入来增强放射学报告生成的框架。Radar通过系统地利用LLM的内部知识和外部检索的信息来改进报告生成。具体来说,它首先提取与基于图像的专家分类输出相一致的模型已获取知识。然后,它检索相关的补充知识,以进一步丰富这些信息。最后,通过聚合这两种来源,Radar生成更准确和信息更丰富的放射学报告。在MIMIC-CXR、CheXpert-Plus和IU X-ray上的大量实验表明,我们的模型在语言质量和临床准确性方面都优于最先进的LLMs。
🔬 方法详解
问题定义:放射学报告生成旨在根据医学影像自动生成诊断报告。现有方法主要依赖于多模态大型语言模型,并结合外部知识检索来增强模型性能。然而,这些方法往往忽略了LLM自身已经具备的医学知识,导致检索到的知识与模型已有知识重叠,造成冗余的信息整合,影响报告的准确性和效率。
核心思路:Radar的核心思路是充分利用LLM内部已有的知识,并在此基础上注入外部补充知识,避免冗余信息整合。具体而言,首先提取LLM内部与图像分类结果对齐的知识,然后检索外部知识作为补充,最后将两者融合生成报告。这种方法旨在更有效地利用LLM的知识,并提供更全面、准确的报告。
技术框架:Radar框架主要包含三个阶段:1) 内部知识提取:利用图像分类结果,从LLM中提取相关的内部知识。2) 外部知识检索:根据图像和提取的内部知识,检索相关的外部知识作为补充。3) 知识融合与报告生成:将提取的内部知识和检索到的外部知识进行融合,然后输入到LLM中生成最终的放射学报告。
关键创新:Radar的关键创新在于其系统性地利用LLM内部知识和外部知识,避免了冗余的信息整合。通过首先提取LLM内部知识,并将其作为检索外部知识的依据,Radar能够更有效地利用外部知识,并生成更准确、更全面的报告。与现有方法相比,Radar更加注重LLM自身的能力,并将其与外部知识相结合,从而实现了更好的性能。
关键设计:Radar的具体实现细节包括:1) 使用预训练的图像分类模型来获取图像的分类结果。2) 使用特定的提示工程(prompt engineering)技术来从LLM中提取内部知识。3) 使用知识图谱或文本数据库来检索外部知识。4) 使用注意力机制或其他融合方法将内部知识和外部知识进行融合。具体的损失函数和网络结构细节在论文中未明确说明,可能使用了标准的语言模型训练方法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Radar在MIMIC-CXR、CheXpert-Plus和IU X-ray等数据集上均取得了显著的性能提升。在语言质量和临床准确性方面,Radar均优于现有的最先进的LLMs。具体的数据提升幅度未知,但论文强调了其超越了现有SOTA模型。
🎯 应用场景
Radar框架具有广泛的应用前景,可用于辅助放射科医生进行诊断报告的撰写,提高诊断效率和准确性。该技术还可应用于远程医疗、医学教育等领域,为缺乏专业知识的医生提供辅助诊断支持。未来,Radar有望成为智能医疗的重要组成部分,推动医疗行业的智能化发展。
📄 摘要(原文)
Large language models (LLMs) have demonstrated remarkable capabilities in various domains, including radiology report generation. Previous approaches have attempted to utilize multimodal LLMs for this task, enhancing their performance through the integration of domain-specific knowledge retrieval. However, these approaches often overlook the knowledge already embedded within the LLMs, leading to redundant information integration. To address this limitation, we propose Radar, a framework for enhancing radiology report generation with supplementary knowledge injection. Radar improves report generation by systematically leveraging both the internal knowledge of an LLM and externally retrieved information. Specifically, it first extracts the model's acquired knowledge that aligns with expert image-based classification outputs. It then retrieves relevant supplementary knowledge to further enrich this information. Finally, by aggregating both sources, Radar generates more accurate and informative radiology reports. Extensive experiments on MIMIC-CXR, CheXpert-Plus, and IU X-ray demonstrate that our model outperforms state-of-the-art LLMs in both language quality and clinical accuracy.