Evaluating The Performance of Using Large Language Models to Automate Summarization of CT Simulation Orders in Radiation Oncology

📄 arXiv: 2501.16309v1 📥 PDF

作者: Meiyun Cao, Shaw Hu, Jason Sharp, Edward Clouser, Jason Holmes, Linda L. Lam, Xiaoning Ding, Diego Santos Toesca, Wendy S. Lindholm, Samir H. Patel, Sujay A. Vora, Peilong Wang, Wei Liu

分类: physics.med-ph, cs.AI

发布日期: 2025-01-27

DOI: 10.1002/acm2.70310


💡 一句话要点

利用大型语言模型自动总结放疗CT模拟医嘱,显著提升工作效率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 CT模拟医嘱 自动摘要 放射肿瘤科 Llama 3.1 自然语言处理 医学文本处理

📋 核心要点

  1. 现有CT模拟医嘱摘要生成依赖人工,耗时且易出错,效率提升面临挑战。
  2. 利用Llama 3.1 405B模型,结合定制化prompt,实现CT模拟医嘱的自动关键词提取和摘要生成。
  3. 实验结果表明,LLM生成的摘要准确率高达98%,且格式统一、可读性强,显著提升效率。

📝 摘要(中文)

本研究旨在利用大型语言模型(LLM)自动生成CT模拟医嘱的摘要,并评估其性能。研究从机构的Aria数据库收集了607份患者的CT模拟医嘱。使用本地部署的Llama 3.1 405B模型,通过API服务提取CT模拟医嘱中的关键词并生成摘要。根据治疗方式和疾病部位将下载的CT模拟医嘱分为七组。针对每组,与治疗师合作开发定制的指令提示,以指导Llama 3.1 405B模型生成摘要。通过仔细审查每个CT模拟医嘱并由治疗师验证,手动生成相应的摘要作为ground truth。治疗师使用验证后的ground truth作为参考,评估LLM生成的摘要的准确性。结果表明,约98%的LLM生成的摘要在准确性方面与手动生成的ground truth一致。评估显示,与治疗师生成的摘要相比,LLM生成的摘要在格式上具有更高的统一性,可读性更强。该自动化方法在所有组中均表现出一致的性能,与治疗方式或疾病部位无关。结论表明,Llama 3.1 405B模型在提取关键词和总结CT模拟医嘱方面具有很高的精度和一致性,表明LLM在帮助完成此任务、减少治疗师的工作量和提高工作流程效率方面具有巨大的潜力。

🔬 方法详解

问题定义:本研究旨在解决放射肿瘤科CT模拟医嘱摘要生成效率低下的问题。现有方法依赖治疗师手动审查医嘱并生成摘要,过程耗时且容易出现人为误差,影响工作流程效率。

核心思路:利用大型语言模型(LLM)强大的文本理解和生成能力,自动化CT模拟医嘱的摘要生成过程。通过定制化的prompt,引导LLM提取关键信息并生成准确、一致的摘要,从而减轻治疗师的工作负担。

技术框架:整体流程包括数据收集、模型部署、prompt设计、摘要生成和性能评估五个主要阶段。首先,从Aria数据库收集CT模拟医嘱数据。然后,本地部署Llama 3.1 405B模型,并通过API服务访问。接着,根据治疗方式和疾病部位,与治疗师合作设计定制化的prompt。利用LLM生成摘要,并与人工生成的ground truth进行比较,评估模型性能。

关键创新:本研究的关键创新在于将大型语言模型应用于放射肿瘤科CT模拟医嘱摘要的自动化生成。通过定制化的prompt,使LLM能够更好地理解医学文本,并生成准确、一致的摘要。此外,该研究还对LLM生成的摘要进行了全面的性能评估,验证了其在实际应用中的可行性。

关键设计:研究中,针对不同的治疗方式和疾病部位,设计了不同的prompt。这些prompt包含了特定的指令和关键词,用于引导LLM提取关键信息并生成摘要。此外,研究还采用了人工生成的ground truth作为参考,对LLM生成的摘要进行准确性评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Llama 3.1 405B模型生成的CT模拟医嘱摘要准确率高达98%,与人工生成的ground truth高度一致。此外,LLM生成的摘要在格式上更加统一,可读性更强,显著提升了工作效率。该方法在不同治疗方式和疾病部位的患者中均表现出一致的性能。

🎯 应用场景

该研究成果可应用于放射肿瘤科,实现CT模拟医嘱的自动摘要生成,减少治疗师的工作量,提高工作流程效率。此外,该方法还可推广到其他医学文本摘要生成任务中,例如病历摘要、影像报告摘要等,具有广阔的应用前景和实际价值。未来,可以进一步探索LLM在医学领域的应用,例如辅助诊断、治疗方案制定等。

📄 摘要(原文)

Purpose: This study aims to use a large language model (LLM) to automate the generation of summaries from the CT simulation orders and evaluate its performance. Materials and Methods: A total of 607 CT simulation orders for patients were collected from the Aria database at our institution. A locally hosted Llama 3.1 405B model, accessed via the Application Programming Interface (API) service, was used to extract keywords from the CT simulation orders and generate summaries. The downloaded CT simulation orders were categorized into seven groups based on treatment modalities and disease sites. For each group, a customized instruction prompt was developed collaboratively with therapists to guide the Llama 3.1 405B model in generating summaries. The ground truth for the corresponding summaries was manually derived by carefully reviewing each CT simulation order and subsequently verified by therapists. The accuracy of the LLM-generated summaries was evaluated by therapists using the verified ground truth as a reference. Results: About 98% of the LLM-generated summaries aligned with the manually generated ground truth in terms of accuracy. Our evaluations showed an improved consistency in format and enhanced readability of the LLM-generated summaries compared to the corresponding therapists-generated summaries. This automated approach demonstrated a consistent performance across all groups, regardless of modality or disease site. Conclusions: This study demonstrated the high precision and consistency of the Llama 3.1 405B model in extracting keywords and summarizing CT simulation orders, suggesting that LLMs have great potential to help with this task, reduce the workload of therapists and improve workflow efficiency.