Exploring the Capabilities and Limitations of Large Language Models for Radiation Oncology Decision Support

作者: Florian Putz, Marlen Haderleina, Sebastian Lettmaier, Sabine Semrau, Rainer Fietkau, Yixing Huang

分类: physics.med-ph, cs.AI

发布日期: 2025-01-04

备注: Officially published in the Red Journal

期刊: International Journal of Radiation Oncology, Biology, Physics. 2024 Mar 15;118(4):900-4

DOI: 10.1016/j.radonc.2024.110419

💡 一句话要点

评估大型语言模型在放射肿瘤决策支持中的能力与局限性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 放射肿瘤学 决策支持 GPT-4 自然语言处理

📋 核心要点

放射肿瘤学决策支持系统面临挑战，现有方法智能化程度不足，难以处理复杂临床场景。
本研究探索GPT-4等大型语言模型在放射肿瘤学中的应用潜力，评估其在特定任务中的性能。
实验结果表明，GPT-4在放射肿瘤物理学、临床放射肿瘤学和结构重命名任务中表现出色。

📝 摘要（中文）

随着大型语言模型（LLM）快速集成到决策支持工具中，大规模系统正在发生重大变革。与其他医学领域一样，GPT-4等LLM在放射肿瘤学中的应用也日益受到关注。本文通过一项专门针对放射肿瘤物理学这一高度专业主题的100道题目的考试，评估了GPT-4在放射肿瘤学中的性能，结果表明GPT-4优于其他LLM。此外，通过美国放射肿瘤学在职培训（TXIT）考试，进一步评估了GPT-4在更广泛的临床放射肿瘤学领域的性能，GPT-4的准确率高达74.57%。同时，还评估了其按照AAPM TG-263报告重新标记结构名称的性能，准确率超过96%。这些研究揭示了LLM在放射肿瘤学中的潜力。虽然人们对LLM在一般医疗保健应用中的潜力和局限性越来越感兴趣，但LLM在放射肿瘤决策支持中的能力和局限性尚未得到充分探索。

🔬 方法详解

问题定义：放射肿瘤学决策支持需要处理大量复杂信息，包括患者病史、影像学数据、治疗计划等。现有方法在处理这些信息时效率较低，且容易出错。此外，放射肿瘤学知识体系庞大且不断更新，医生需要不断学习才能保持专业水平。因此，如何利用人工智能技术提高放射肿瘤学决策支持的效率和准确性是一个重要问题。

核心思路：本研究的核心思路是利用大型语言模型（LLM）的强大自然语言处理能力，将放射肿瘤学知识融入到LLM中，使其能够理解和处理放射肿瘤学相关的问题。通过对LLM进行训练和评估，探索其在放射肿瘤学决策支持中的应用潜力。

技术框架：本研究主要采用GPT-4等现成的LLM，并对其在放射肿瘤学领域的性能进行评估。具体来说，研究者设计了针对放射肿瘤物理学的考试题目、美国放射肿瘤学在职培训（TXIT）考试题目，以及结构重命名任务，用于评估LLM在不同方面的能力。

关键创新：本研究的关键创新在于首次系统性地评估了GPT-4等LLM在放射肿瘤学领域的应用潜力。通过设计专门的评估任务，研究者揭示了LLM在放射肿瘤学知识理解、临床决策支持和结构化数据处理方面的能力。

关键设计：本研究的关键设计包括：1) 针对放射肿瘤物理学设计的100道考试题目，涵盖了放射治疗的各个方面；2) 美国放射肿瘤学在职培训（TXIT）考试题目，用于评估LLM在临床放射肿瘤学领域的知识水平；3) 结构重命名任务，用于评估LLM按照AAPM TG-263报告进行结构命名的能力。研究者使用准确率作为评估指标，对LLM的性能进行量化分析。

📊 实验亮点

GPT-4在放射肿瘤物理学考试中表现出色，优于其他LLM。在临床放射肿瘤学（TXIT）考试中，GPT-4的准确率达到74.57%。在结构重命名任务中，GPT-4的准确率超过96%。这些结果表明，LLM在放射肿瘤学领域具有巨大的应用潜力。

🎯 应用场景

该研究成果可应用于开发智能放射肿瘤决策支持系统，辅助医生进行诊断、治疗计划制定和质量控制。通过提高决策效率和准确性，有望改善患者的治疗效果，并降低医疗成本。未来，可以将LLM与影像分析、病理分析等技术相结合，构建更全面的智能放射肿瘤解决方案。

📄 摘要（原文）

Thanks to the rapidly evolving integration of LLMs into decision-support tools, a significant transformation is happening across large-scale systems. Like other medical fields, the use of LLMs such as GPT-4 is gaining increasing interest in radiation oncology as well. An attempt to assess GPT-4's performance in radiation oncology was made via a dedicated 100-question examination on the highly specialized topic of radiation oncology physics, revealing GPT-4's superiority over other LLMs. GPT-4's performance on a broader field of clinical radiation oncology is further benchmarked by the ACR Radiation Oncology In-Training (TXIT) exam where GPT-4 achieved a high accuracy of 74.57%. Its performance on re-labelling structure names in accordance with the AAPM TG-263 report has also been benchmarked, achieving above 96% accuracies. Such studies shed light on the potential of LLMs in radiation oncology. As interest in the potential and constraints of LLMs in general healthcare applications continues to rise5, the capabilities and limitations of LLMs in radiation oncology decision support have not yet been fully explored.

Exploring the Capabilities and Limitations of Large Language Models for Radiation Oncology Decision Support

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理