Exploring Multilingual Large Language Models for Enhanced TNM classification of Radiology Report in lung cancer staging

📄 arXiv: 2406.06591v2 📥 PDF

作者: Hidetoshi Matsuo, Mizuho Nishio, Takaaki Matsunaga, Koji Fujimoto, Takamichi Murakami

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-06-05 (更新: 2024-06-12)

备注: 16 pages, 3figures

期刊: Cancers 2024, 16(21), 3621

DOI: 10.3390/cancers16213621


💡 一句话要点

利用多语言大语言模型提升肺癌分期中放射报告的TNM分类

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 肺癌分期 放射报告 大语言模型 TNM分类 GPT-3.5 多语言处理 自然语言处理 医学影像

📋 核心要点

  1. 放射报告结构化耗时费力,现有方法难以有效处理自然语言叙述式报告,自动化程度低。
  2. 利用GPT-3.5等多语言大语言模型,构建自动TNM分类系统,无需额外训练即可提升性能。
  3. 实验结果表明,提供完整TNM定义可显著提高分类准确率,尤其是在英文报告中效果更佳。

📝 摘要(中文)

背景:结构化放射报告因其耗时费力以及叙述式报告风格而发展不足。深度学习,特别是像GPT-3.5这样的大语言模型(LLM),为自动化自然语言放射报告的结构化提供了希望。然而,尽管有报道称LLM在英语以外的语言中效果较差,但它们在放射学方面的性能尚未得到广泛研究。目的:本研究旨在探讨使用GPT3.5-turbo (GPT3.5)基于放射报告进行TNM分类的准确性,以及多语言LLM在日语和英语中的效用。材料与方法:利用GPT3.5,我们开发了一个系统,用于自动生成肺癌胸部CT报告的TNM分类,并评估其性能。我们使用广义线性混合模型统计分析了在两种语言中提供完整或部分TNM定义的影响。结果:在提供完整的TNM定义和英语放射报告的情况下,获得了最高的准确率(M = 94%,N = 80%,T = 47%,ALL = 36%)。为每个T、N和M因子提供定义在统计上提高了它们各自的准确率(T:优势比(OR) = 2.35,p < 0.001;N:OR = 1.94,p < 0.01;M:OR = 2.50,p < 0.001)。日语报告显示N和M的准确率降低(N准确率:OR = 0.74,M准确率:OR = 0.21)。结论:本研究强调了多语言LLM在放射报告自动TNM分类方面的潜力。即使没有额外的模型训练,通过提供的TNM定义,性能也得到了明显的提高,这表明LLM在放射学背景下的相关性。

🔬 方法详解

问题定义:论文旨在解决肺癌放射报告中TNM分期的自动化问题。现有方法依赖人工标注和结构化,效率低下且易出错。大语言模型在处理自然语言方面具有优势,但其在放射学领域的应用,尤其是在多语言环境下的性能,仍需深入研究。现有方法的痛点在于需要大量人工干预,且难以保证一致性和准确性。

核心思路:论文的核心思路是利用预训练的大语言模型GPT-3.5,通过提供TNM分期的定义,引导模型理解放射报告中的关键信息,并自动生成TNM分类结果。这种方法无需针对特定数据集进行额外训练,降低了开发成本和时间。通过比较不同语言(英语和日语)的报告,以及提供完整或部分TNM定义,分析语言和定义对模型性能的影响。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 数据收集:收集肺癌患者的胸部CT放射报告,包括英文和日文版本。2) 系统开发:使用GPT-3.5构建自动TNM分类系统。3) 定义提供:分别提供完整和部分TNM定义给模型。4) 分类生成:模型根据放射报告和提供的定义生成TNM分类结果。5) 性能评估:使用广义线性混合模型统计分析不同条件下的分类准确率。

关键创新:该研究的关键创新在于探索了多语言大语言模型在放射学领域的应用潜力,并验证了即使不进行额外训练,通过提供领域知识(TNM定义)也能显著提升模型性能。此外,该研究还比较了不同语言对模型性能的影响,为多语言放射报告处理提供了有价值的参考。

关键设计:研究中关键的设计包括:1) 使用GPT-3.5-turbo模型,该模型具有较强的自然语言理解和生成能力。2) 设计了完整和部分TNM定义,用于引导模型理解放射报告中的关键信息。3) 使用广义线性混合模型进行统计分析,评估不同因素对分类准确率的影响。4) 评估指标包括T、N、M和总体分类的准确率。

📊 实验亮点

研究结果表明,在提供完整TNM定义和英语放射报告的情况下,GPT3.5获得了最高的准确率(M = 94%,N = 80%,T = 47%,ALL = 36%)。为每个T、N和M因子提供定义在统计上显著提高了它们各自的准确率(p < 0.001或p < 0.01)。日语报告的N和M准确率相对较低,表明语言对模型性能有一定影响。

🎯 应用场景

该研究成果可应用于医疗影像诊断辅助系统,帮助医生快速准确地进行肺癌TNM分期,提高诊断效率和准确性。未来,该技术可扩展到其他癌症类型的分期,并应用于多语言环境下的放射报告处理,具有广阔的应用前景。

📄 摘要(原文)

Background: Structured radiology reports remains underdeveloped due to labor-intensive structuring and narrative-style reporting. Deep learning, particularly large language models (LLMs) like GPT-3.5, offers promise in automating the structuring of radiology reports in natural languages. However, although it has been reported that LLMs are less effective in languages other than English, their radiological performance has not been extensively studied. Purpose: This study aimed to investigate the accuracy of TNM classification based on radiology reports using GPT3.5-turbo (GPT3.5) and the utility of multilingual LLMs in both Japanese and English. Material and Methods: Utilizing GPT3.5, we developed a system to automatically generate TNM classifications from chest CT reports for lung cancer and evaluate its performance. We statistically analyzed the impact of providing full or partial TNM definitions in both languages using a Generalized Linear Mixed Model. Results: Highest accuracy was attained with full TNM definitions and radiology reports in English (M = 94%, N = 80%, T = 47%, and ALL = 36%). Providing definitions for each of the T, N, and M factors statistically improved their respective accuracies (T: odds ratio (OR) = 2.35, p < 0.001; N: OR = 1.94, p < 0.01; M: OR = 2.50, p < 0.001). Japanese reports exhibited decreased N and M accuracies (N accuracy: OR = 0.74 and M accuracy: OR = 0.21). Conclusion: This study underscores the potential of multilingual LLMs for automatic TNM classification in radiology reports. Even without additional model training, performance improvements were evident with the provided TNM definitions, indicating LLMs' relevance in radiology contexts.