Fine-Tuning In-House Large Language Models to Infer Differential Diagnosis from Radiology Reports

作者: Luoyao Chen, Revant Teotia, Antonio Verdone, Aidan Cardall, Lakshay Tyagi, Yiqiu Shen, Sumit Chopra

分类: cs.CL

发布日期: 2024-10-11

备注: 10 pages, 2 figures, 4 tables

💡 一句话要点

提出一种基于自研LLM的放射报告差异诊断推断微调方案，性能媲美GPT-4。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 放射报告 差异诊断 微调 自然语言处理 医学影像 临床信息提取

📋 核心要点

放射报告非结构化，人工提取差异诊断耗时且易出错，现有方法难以兼顾效率和准确性。
利用GPT-4生成大量标注数据，微调开源LLM，构建高性能且保护隐私的内部诊断模型。
实验表明，该模型在差异诊断提取任务上F1值达到92.1%，与GPT-4性能持平。

📝 摘要（中文）

放射报告总结了医学影像检查的关键发现和差异诊断。提取差异诊断对于患者管理和治疗计划等下游任务至关重要。然而，这些报告的非结构化性质，以多样的语言风格和不一致的格式为特征，带来了重大挑战。虽然像GPT-4这样的专有大型语言模型（LLM）可以有效地检索临床信息，但由于高成本和对受保护健康信息（PHI）隐私的担忧，它们在实践中的使用受到限制。本研究介绍了一种用于开发定制的内部LLM的流程，该流程专门用于识别放射报告中的差异诊断。我们首先利用GPT-4创建了31,056个标记报告，然后使用该数据集对开源LLM进行微调。在由临床医生注释的1,067份报告集上进行评估，所提出的模型实现了92.1%的平均F1分数，与GPT-4（90.8%）相当。通过这项研究，我们提供了一种构建内部LLM的方法，该方法：匹配GPT的性能，减少对昂贵的专有模型的依赖，并增强PHI的隐私和安全性。

🔬 方法详解

问题定义：论文旨在解决从非结构化的放射报告中自动提取差异诊断的问题。现有方法，特别是依赖人工提取，效率低下且容易出错。虽然商业LLM（如GPT-4）表现良好，但成本高昂且存在患者隐私泄露的风险。因此，需要一种既能保证性能，又能降低成本并保护隐私的解决方案。

核心思路：论文的核心思路是利用商业LLM（GPT-4）的强大能力，生成大量高质量的标注数据，然后使用这些数据对开源LLM进行微调。这样可以在保证模型性能的同时，避免直接使用商业LLM带来的成本和隐私问题。通过微调，使开源LLM能够专注于放射报告的差异诊断提取任务。

技术框架：整体框架包含两个主要阶段：1) 数据生成阶段：使用GPT-4对大量的放射报告进行标注，生成包含差异诊断信息的训练数据集。2) 模型微调阶段：使用生成的数据集对开源LLM进行微调，使其能够自动从放射报告中提取差异诊断。评估阶段使用临床医生标注的报告集，评估微调后模型的性能。

关键创新：该论文的关键创新在于利用商业LLM作为数据标注工具，从而能够以较低的成本获得大量高质量的训练数据。这种方法避免了人工标注的耗时和主观性，同时也解决了直接使用商业LLM带来的隐私问题。通过这种方式，可以高效地构建特定领域的、高性能的内部LLM。

关键设计：论文的关键设计包括：1) 使用GPT-4进行数据标注时的prompt工程，确保生成的数据质量。2) 选择合适的开源LLM作为微调的基础模型。3) 设计合适的微调策略，例如学习率、batch size等，以优化模型的性能。4) 使用F1 score作为评估指标，全面衡量模型的准确率和召回率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，经过微调的内部LLM在放射报告差异诊断提取任务上取得了显著的成果，平均F1分数达到92.1%，与GPT-4的90.8%性能相当。这表明该方法能够以较低的成本和更高的隐私保护水平，实现与商业LLM相媲美的性能。

🎯 应用场景

该研究成果可应用于医疗机构，辅助医生进行诊断决策，提高诊断效率和准确性。通过构建内部LLM，可以降低对外部商业模型的依赖，保护患者隐私数据。该方法还可推广到其他医学文本处理任务，例如病历分析、药物研发等，具有广阔的应用前景。

📄 摘要（原文）

Radiology reports summarize key findings and differential diagnoses derived from medical imaging examinations. The extraction of differential diagnoses is crucial for downstream tasks, including patient management and treatment planning. However, the unstructured nature of these reports, characterized by diverse linguistic styles and inconsistent formatting, presents significant challenges. Although proprietary large language models (LLMs) such as GPT-4 can effectively retrieve clinical information, their use is limited in practice by high costs and concerns over the privacy of protected health information (PHI). This study introduces a pipeline for developing in-house LLMs tailored to identify differential diagnoses from radiology reports. We first utilize GPT-4 to create 31,056 labeled reports, then fine-tune open source LLM using this dataset. Evaluated on a set of 1,067 reports annotated by clinicians, the proposed model achieves an average F1 score of 92.1\%, which is on par with GPT-4 (90.8\%). Through this study, we provide a methodology for constructing in-house LLMs that: match the performance of GPT, reduce dependence on expensive proprietary models, and enhance the privacy and security of PHI.

Fine-Tuning In-House Large Language Models to Infer Differential Diagnosis from Radiology Reports

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理