Fine-Tuning Open-Source Large Language Models to Improve Their Performance on Radiation Oncology Tasks: A Feasibility Study to Investigate Their Potential Clinical Applications in Radiation Oncology
作者: Peilong Wang, Zhengliang Liu, Yiwei Li, Jason Holmes, Peng Shu, Lian Zhang, Xiang Li, Quanzheng Li, Brady S. Laughlin, Diego Santos Toesca, Sujay A. Vora, Samir H. Patel, Terence T. Sio, Tianming Liu, Wei Liu
分类: physics.med-ph, cs.AI, cs.CL
发布日期: 2025-01-28
💡 一句话要点
通过微调开源大语言模型提升放射肿瘤任务性能,探索其临床应用潜力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 放射肿瘤学 微调 临床决策支持 治疗方案生成
📋 核心要点
- 放射肿瘤临床实践依赖于大量文本数据的动态交互,现有方法难以有效处理。
- 本研究通过领域知识微调LLMs,使其更好地适应放射肿瘤领域的特定任务。
- 实验结果表明,微调后的LLMs在治疗方案生成、治疗方式选择和ICD-10代码预测方面均优于原始模型。
📝 摘要(中文)
本研究旨在探讨通过领域知识微调大型语言模型(LLMs)是否能提升其在放射肿瘤学中的性能,具体任务包括:(1)治疗方案生成,(2)治疗方式选择(光子、质子、电子或近距离放射治疗),以及(3)ICD-10代码预测。研究提取了15724例患者数据,筛选出7903例包含明确诊断记录和主要治疗方案的病例,进行预处理和人工标注。每个病例被构建为包含患者诊断细节和答案(治疗方案、治疗方式或ICD-10代码)的配对,用于监督微调。研究采用LoRA方法微调了开源的LLaMA2-7B和Mistral-7B模型。结果显示,微调后的LLMs在所有任务上均优于原始模型(p-value <= 0.001)。临床评估表明,超过60%的微调模型生成的治疗方案在临床上可接受。精确率、召回率和F1分数也显示出微调后LLMs性能的提升。
🔬 方法详解
问题定义:放射肿瘤学临床实践涉及大量文本数据,例如患者病历、治疗计划等。现有方法在处理这些复杂文本信息时效率较低,难以准确生成治疗方案、选择合适的治疗方式以及预测ICD-10代码。这限制了人工智能在放射肿瘤学中的应用。
核心思路:本研究的核心思路是利用领域知识微调开源大型语言模型(LLMs),使其更好地适应放射肿瘤领域的特定任务。通过在放射肿瘤数据集上进行微调,使LLMs能够学习到与放射肿瘤相关的知识和模式,从而提高其在相关任务上的性能。
技术框架:整体框架包括数据预处理、模型微调和性能评估三个主要阶段。首先,从患者病例中提取相关信息,进行预处理和人工标注,构建训练数据集。然后,使用LoRA方法微调开源的LLaMA2-7B和Mistral-7B模型。最后,通过准确率、ROUGE-1分数、精确率、召回率和F1分数等指标评估微调后模型的性能,并进行临床评估。
关键创新:本研究的关键创新在于将大型语言模型应用于放射肿瘤学领域,并探索了通过微调提升模型性能的方法。与传统的机器学习方法相比,LLMs具有更强的文本理解和生成能力,能够更好地处理放射肿瘤领域的复杂文本信息。此外,本研究还采用了LoRA方法进行微调,降低了计算成本。
关键设计:研究使用了开源的LLaMA2-7B和Mistral-7B模型作为基础模型。微调方法采用Low-Rank Approximations (LoRA),这是一种参数高效的微调技术,可以在不修改原始模型所有参数的情况下,通过学习低秩矩阵来适应新的任务。针对不同的任务,研究构建了不同的训练数据集,并采用了相应的评估指标。例如,对于治疗方案生成任务,采用了临床评估方法,由放射肿瘤科医生评估生成方案的临床可接受性。
📊 实验亮点
实验结果表明,微调后的LLMs在所有任务上均优于原始模型(p-value <= 0.001)。临床评估显示,超过60%的微调模型生成的治疗方案在临床上可接受。在治疗方式选择和ICD-10代码预测任务中,微调后的LLMs的精确率、召回率和F1分数均得到显著提升,证明了微调策略的有效性。
🎯 应用场景
该研究成果可应用于放射肿瘤科的临床决策支持系统,辅助医生制定治疗方案、选择治疗方式和进行疾病编码。这有助于提高治疗效率、减少人为错误,并最终改善患者的治疗效果。未来,该技术有望扩展到其他医学领域,为临床实践提供更智能化的解决方案。
📄 摘要(原文)
Background: The radiation oncology clinical practice involves many steps relying on the dynamic interplay of abundant text data. Large language models have displayed remarkable capabilities in processing complex text information. But their direct applications in specific fields like radiation oncology remain underexplored. Purpose: This study aims to investigate whether fine-tuning LLMs with domain knowledge can improve the performance on Task (1) treatment regimen generation, Task (2) treatment modality selection (photon, proton, electron, or brachytherapy), and Task (3) ICD-10 code prediction in radiation oncology. Methods: Data for 15,724 patient cases were extracted. Cases where patients had a single diagnostic record, and a clearly identifiable primary treatment plan were selected for preprocessing and manual annotation to have 7,903 cases of the patient diagnosis, treatment plan, treatment modality, and ICD-10 code. Each case was used to construct a pair consisting of patient diagnostics details and an answer (treatment regimen, treatment modality, or ICD-10 code respectively) for the supervised fine-tuning of these three tasks. Open source LLaMA2-7B and Mistral-7B models were utilized for the fine-tuning with the Low-Rank Approximations method. Accuracy and ROUGE-1 score were reported for the fine-tuned models and original models. Clinical evaluation was performed on Task (1) by radiation oncologists, while precision, recall, and F-1 score were evaluated for Task (2) and (3). One-sided Wilcoxon signed-rank tests were used to statistically analyze the results. Results: Fine-tuned LLMs outperformed original LLMs across all tasks with p-value <= 0.001. Clinical evaluation demonstrated that over 60% of the fine-tuned LLMs-generated treatment regimens were clinically acceptable. Precision, recall, and F1-score showed improved performance of fine-tuned LLMs.