Error Correction in Radiology Reports: A Knowledge Distillation-Based Multi-Stage Framework

📄 arXiv: 2406.15045v3 📥 PDF

作者: Jinge Wu, Zhaolong Wu, Ruizhe Li, Tong Chen, Abul Hasan, Yunsoo Kim, Jason P. Y. Cheung, Teng Zhang, Honghan Wu

分类: cs.CL

发布日期: 2024-06-21 (更新: 2025-11-12)

备注: Accepted to AAAI 2026


💡 一句话要点

提出基于知识蒸馏的多阶段框架,用于放射报告的错误纠正。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 放射报告校对 知识蒸馏 大型语言模型 医学知识图 错误检测

📋 核心要点

  1. 现有大型语言模型在放射报告校对方面存在局限性,无法有效检测和纠正报告中的各类错误。
  2. 论文提出双重知识注入框架,结合医学知识图蒸馏和外部知识检索,增强LLM的校对能力。
  3. 实验结果表明,该方法在错误检测准确率和处理时间上均有显著提升,并具有更好的临床相关性。

📝 摘要(中文)

临床放射学日益增长的复杂性和工作量导致诊断工具使用中不可避免的疏忽和错误,从而延误治疗,有时甚至对患者造成危及生命的伤害。虽然大型语言模型(LLM)在许多任务中表现出显著的进步,但它们在检测和纠正放射报告中的错误方面的效用有限。本文提出了一种新颖的双重知识注入框架,通过系统地整合医学专业知识来增强LLM在放射报告校对方面的能力。具体来说,知识注入结合了医学知识图蒸馏(MKGD)和外部知识检索(EXKR),从而实现了一种有效的自动化方法来解决放射报告中的错误。通过将复杂的校对任务分解为检测、定位和纠正三个专门阶段,我们的方法模仿了专家放射科医生采用的系统审查过程,确保了精确性和临床可解释性。为了进行稳健的、临床相关的评估,还提出了一个使用真实放射报告和真实错误模式(包括语音识别混淆、术语歧义和模板相关不一致)的综合基准。跨多个LLM架构的广泛评估表明,我们的方法取得了显著的改进:错误检测准确率提高了31.56%,处理时间减少了37.4%。放射科医生的人工评估证实,与现有方法相比,该方法具有卓越的临床相关性和事实一致性。

🔬 方法详解

问题定义:放射报告中存在大量错误,包括语音识别错误、术语歧义和模板不一致等,这些错误可能导致误诊和延误治疗。现有的大型语言模型在处理此类错误时,缺乏足够的医学知识和专业推理能力,难以达到专家放射科医生的水平。

核心思路:论文的核心思路是通过知识蒸馏和外部知识检索,将医学知识注入到大型语言模型中,使其具备更强的放射报告校对能力。这种方法模仿了放射科医生的工作流程,将校对任务分解为检测、定位和纠正三个阶段,从而提高校对的准确性和效率。

技术框架:该框架包含三个主要阶段:1) 错误检测:利用LLM识别报告中可能存在的错误;2) 错误定位:确定错误的具体位置;3) 错误纠正:使用医学知识图和外部知识,对错误进行修正。框架集成了医学知识图蒸馏(MKGD)和外部知识检索(EXKR)两种知识注入方法。

关键创新:该方法的主要创新在于双重知识注入框架,它将医学知识图蒸馏和外部知识检索相结合,从而更全面地增强LLM的医学知识。此外,将校对任务分解为三个阶段,模仿了放射科医生的工作流程,提高了校对的效率和可解释性。

关键设计:医学知识图蒸馏(MKGD)通过训练LLM来预测医学知识图中的关系,从而将医学知识注入到LLM中。外部知识检索(EXKR)则利用外部医学知识库,为LLM提供更全面的信息。在训练过程中,使用了交叉熵损失函数来优化模型的性能。具体参数设置和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在错误检测准确率上提高了31.56%,处理时间减少了37.4%。与现有方法相比,该方法在临床相关性和事实一致性方面也表现出更优越的性能。放射科医生的人工评估也证实了该方法的有效性。

🎯 应用场景

该研究成果可应用于临床放射报告的自动校对,减少人工校对的工作量,提高报告的准确性和一致性,从而减少误诊和延误治疗的风险。此外,该方法还可以推广到其他医学文本的校对和审核,具有广泛的应用前景。

📄 摘要(原文)

The increasing complexity and workload of clinical radiology leads to inevitable oversights and mistakes in their use as diagnostic tools, causing delayed treatments and sometimes life-threatening harm to patients. While large language models (LLMs) have shown remarkable progress in many tasks, their utilities in detecting and correcting errors in radiology reporting are limited. This paper proposes a novel dual-knowledge infusion framework that enhances LLMs' capability for radiology report proofreading through systematic integration of medical expertise. Specifically, the knowledge infusion combines medical knowledge graph distillation (MKGD) with external knowledge retrieval (EXKR), enabling an effective automated approach in tackling mistakes in radiology reporting. By decomposing the complex proofreading task into three specialized stages of detection, localization, and correction, our method mirrors the systematic review process employed by expert radiologists, ensuring both precision and clinical interpretability. To perform a robust, clinically relevant evaluation, a comprehensive benchmark is also proposed using real-world radiology reports with real-world error patterns, including speech recognition confusions, terminology ambiguities, and template-related inconsistencies. Extensive evaluations across multiple LLM architectures demonstrate substantial improvements of our approach: up to 31.56% increase in error detection accuracy and 37.4% reduction in processing time. Human evaluation by radiologists confirms superior clinical relevance and factual consistency compared to existing approaches.