Leveraging Fine-Tuned Large Language Models for Interpretable Pancreatic Cystic Lesion Feature Extraction and Risk Categorization
作者: Ebrahim Rasromani, Stella K. Kang, Yanqi Xu, Beisong Liu, Garvit Luhadia, Wan Fung Chui, Felicia L. Pasadyn, Yu Chih Hung, Julie Y. An, Edwin Mathieu, Zehui Gu, Carlos Fernandez-Granda, Ammar A. Javed, Greg D. Sacks, Tamas Gonda, Chenchan Huang, Yiqiu Shen
分类: cs.AI, cs.CL, cs.IR
发布日期: 2025-07-26
💡 一句话要点
利用微调的大语言模型实现可解释的胰腺囊性病变特征提取与风险分级
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 胰腺囊性病变 大型语言模型 特征提取 风险分级 思维链 放射学报告 自然语言处理
📋 核心要点
- 人工提取放射报告中的胰腺囊性病变特征耗时费力,阻碍了大规模研究的开展,限制了对该疾病的深入理解。
- 本研究利用GPT-4o生成高质量的思维链数据,并在此基础上微调开源大语言模型,以实现自动化的特征提取和风险分级。
- 实验结果表明,微调后的开源模型在特征提取和风险分级方面均达到或超过了GPT-4o的性能,并与放射科医生达成高度一致。
📝 摘要(中文)
背景:从放射学报告中手动提取胰腺囊性病变(PCL)特征非常耗时,限制了推进PCL研究所需的大规模研究。目的:开发和评估大型语言模型(LLM),以自动从MRI/CT报告中提取PCL特征,并根据指南分配风险类别。材料与方法:我们整理了一个包含5134名患者的6000份腹部MRI/CT报告(2005-2024)的训练数据集,这些报告描述了PCL。使用思维链(CoT)提示,由GPT-4o生成标签,以提取PCL和主胰管特征。使用QLoRA在GPT-4o生成的CoT数据上微调了两个开源LLM。根据2017 ACR白皮书,将特征映射到机构指南中的风险类别。在285份人工标注的保留报告上进行了评估。三名放射科医生独立审查了100个病例的模型输出。使用精确匹配准确率评估特征提取,使用宏平均F1分数评估风险分类,使用Fleiss' Kappa评估放射科医生-模型一致性。结果:CoT微调提高了LLaMA(80%到97%)和DeepSeek(79%到98%)的特征提取准确率,与GPT-4o(97%)相匹配。风险分类F1分数也得到了提高(LLaMA: 0.95; DeepSeek: 0.94),与GPT-4o(0.97)非常接近,没有统计学上的显著差异。放射科医生间的读者间一致性很高(Fleiss' Kappa = 0.888),并且与添加DeepSeek-FT-CoT(Fleiss' Kappa = 0.893)或GPT-CoT(Fleiss' Kappa = 0.897)没有统计学上的显著差异,表明这两个模型都达到了与放射科医生相当的一致性水平。结论:通过CoT监督微调的开源LLM能够实现准确、可解释和高效的表型分析,用于大规模PCL研究,其性能与GPT-4o相当。
🔬 方法详解
问题定义:该论文旨在解决从放射学报告中手动提取胰腺囊性病变(PCL)特征的难题。现有方法依赖人工标注,效率低下且容易出错,限制了大规模PCL研究的开展。此外,如何将提取的特征有效映射到风险类别,辅助临床决策也是一个挑战。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大自然语言处理能力,通过思维链(CoT)提示和微调技术,使LLM能够自动、准确地从放射学报告中提取PCL特征,并进行风险分级。通过模仿人类专家的推理过程,提高模型的可解释性和可靠性。
技术框架:整体框架包括以下几个主要阶段:1) 数据集构建:收集包含PCL描述的MRI/CT报告,构建训练数据集。2) 标签生成:使用GPT-4o和CoT提示,自动生成PCL和主胰管特征的标签。3) 模型微调:在GPT-4o生成的CoT数据上,使用QLoRA技术微调开源LLM(LLaMA和DeepSeek)。4) 风险分级:根据机构指南,将提取的特征映射到相应的风险类别。5) 模型评估:在人工标注的保留数据集上评估模型性能,并与放射科医生进行比较。
关键创新:该论文的关键创新在于:1) 利用GPT-4o和CoT提示自动生成高质量的训练数据,降低了人工标注的成本。2) 通过微调开源LLM,实现了与GPT-4o相当甚至更好的性能,降低了使用成本。3) 验证了LLM在PCL特征提取和风险分级方面的潜力,为大规模PCL研究提供了新的工具。
关键设计:在模型微调方面,使用了QLoRA技术,这是一种高效的参数高效微调方法,可以在有限的计算资源下实现良好的性能。使用了GPT-4o生成的CoT数据进行监督学习,CoT数据包含了推理过程,有助于提高模型的可解释性。风险分级是基于机构指南和2017 ACR白皮书进行的,保证了临床相关性。
📊 实验亮点
实验结果表明,经过CoT微调的LLaMA和DeepSeek模型在特征提取准确率上分别从80%和79%提升至97%和98%,与GPT-4o的97%持平。在风险分级方面,LLaMA和DeepSeek的F1分数分别为0.95和0.94,与GPT-4o的0.97接近,且无统计学差异。模型与放射科医生的一致性水平也相当,Fleiss' Kappa值分别为0.893和0.897,与放射科医生间的一致性(0.888)无显著差异。
🎯 应用场景
该研究成果可应用于临床辅助诊断、大规模PCL研究、药物研发等领域。通过自动提取放射报告中的PCL特征并进行风险分级,可以提高诊断效率和准确性,辅助医生进行临床决策。此外,该技术还可以用于构建大规模PCL数据库,为PCL的病理机制研究和新药研发提供数据支持。
📄 摘要(原文)
Background: Manual extraction of pancreatic cystic lesion (PCL) features from radiology reports is labor-intensive, limiting large-scale studies needed to advance PCL research. Purpose: To develop and evaluate large language models (LLMs) that automatically extract PCL features from MRI/CT reports and assign risk categories based on guidelines. Materials and Methods: We curated a training dataset of 6,000 abdominal MRI/CT reports (2005-2024) from 5,134 patients that described PCLs. Labels were generated by GPT-4o using chain-of-thought (CoT) prompting to extract PCL and main pancreatic duct features. Two open-source LLMs were fine-tuned using QLoRA on GPT-4o-generated CoT data. Features were mapped to risk categories per institutional guideline based on the 2017 ACR White Paper. Evaluation was performed on 285 held-out human-annotated reports. Model outputs for 100 cases were independently reviewed by three radiologists. Feature extraction was evaluated using exact match accuracy, risk categorization with macro-averaged F1 score, and radiologist-model agreement with Fleiss' Kappa. Results: CoT fine-tuning improved feature extraction accuracy for LLaMA (80% to 97%) and DeepSeek (79% to 98%), matching GPT-4o (97%). Risk categorization F1 scores also improved (LLaMA: 0.95; DeepSeek: 0.94), closely matching GPT-4o (0.97), with no statistically significant differences. Radiologist inter-reader agreement was high (Fleiss' Kappa = 0.888) and showed no statistically significant difference with the addition of DeepSeek-FT-CoT (Fleiss' Kappa = 0.893) or GPT-CoT (Fleiss' Kappa = 0.897), indicating that both models achieved agreement levels on par with radiologists. Conclusion: Fine-tuned open-source LLMs with CoT supervision enable accurate, interpretable, and efficient phenotyping for large-scale PCL research, achieving performance comparable to GPT-4o.