Can open source large language models be used for tumor documentation in Germany? -- An evaluation on urological doctors' notes
作者: Stefan Lenz, Arsenij Ustjanzew, Marco Jeray, Meike Ressing, Torsten Panholzer
分类: cs.CL, cs.AI
发布日期: 2025-01-21 (更新: 2025-08-07)
备注: 53 pages, 5 figures
期刊: BioData Mining volume 18, Article number 48 (2025)
DOI: 10.1186/s13040-025-00463-8
🔗 代码/项目: GITHUB
💡 一句话要点
评估开源大语言模型在德国泌尿科肿瘤文档自动生成中的应用潜力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 肿瘤文档 自然语言处理 医学文本挖掘 开源模型
📋 核心要点
- 德国肿瘤文档主要依赖手动,效率低且易出错,亟需自动化解决方案。
- 本研究探索利用开源大语言模型自动提取肿瘤诊断、ICD-10代码和诊断日期等信息。
- 实验表明,7-12B参数规模的模型在性能和资源效率间取得平衡,具备应用潜力。
📝 摘要(中文)
德国的肿瘤文档工作在很大程度上是手动完成的,需要阅读患者记录并将数据输入到结构化数据库中。大型语言模型(LLM)有可能通过提高效率和可靠性来增强这一过程。本研究评估了11个不同的开源LLM,模型参数规模从10亿到700亿不等,针对肿瘤文档过程的三个基本任务:识别肿瘤诊断、分配ICD-10代码以及提取首次诊断日期。为了评估LLM在这些任务中的表现,我们准备了一个基于泌尿科匿名医生笔记的带注释的文本片段数据集。我们使用了不同的提示策略来研究few-shot prompting中示例数量的影响,并探索LLM的总体能力。Llama 3.1 8B、Mistral 7B和Mistral NeMo 12B模型在这些任务中表现相当。训练数据较少或参数少于70亿的模型表现明显较差,而更大的模型没有显示出性能提升。来自泌尿科以外的其他医学领域的示例也可以改善few-shot prompting的结果,这证明了LLM处理肿瘤文档所需任务的能力。开源LLM在自动化肿瘤文档方面显示出强大的潜力。参数规模在70亿到120亿之间的模型可以在性能和资源效率之间提供最佳平衡。通过定制的微调和精心设计的提示,这些模型可能成为未来临床文档的重要工具。评估代码可在https://github.com/stefan-m-lenz/UroLlmEval 获取。我们还将该数据集发布为一种新的宝贵资源,以解决德语医学NLP中真实且易于访问的基准的短缺问题。
🔬 方法详解
问题定义:德国肿瘤文档工作高度依赖手动,医生需要查阅病历并将信息录入结构化数据库,过程耗时且容易出错。现有方法缺乏自动化手段,无法有效减轻医生的负担。
核心思路:利用大型语言模型(LLM)的自然语言处理能力,自动从医生笔记中提取关键信息,如肿瘤诊断、ICD-10代码和首次诊断日期,从而实现肿瘤文档的自动化。
技术框架:该研究主要分为数据准备、模型选择与评估、以及提示策略设计三个阶段。首先,构建一个基于泌尿科医生匿名笔记的带标注数据集。然后,选择11个不同规模的开源LLM进行评估。最后,设计不同的few-shot prompting策略,探索模型在不同示例数量下的表现。
关键创新:该研究的关键创新在于探索了开源LLM在德语医学文本处理中的应用潜力,并针对肿瘤文档任务进行了专门评估。此外,该研究还发布了一个新的德语医学NLP数据集,填补了该领域资源的空白。
关键设计:研究中使用了不同数量的few-shot示例来评估LLM的性能。评估指标包括准确率、召回率和F1值。模型选择方面,考虑了模型规模(1-70B参数)和训练数据的影响。提示策略方面,探索了不同医学领域的示例对模型性能的影响。
📊 实验亮点
实验结果表明,Llama 3.1 8B、Mistral 7B和Mistral NeMo 12B模型在肿瘤文档任务中表现出色。参数规模在7-12B的模型在性能和资源效率之间取得了较好的平衡。使用其他医学领域的示例进行few-shot prompting也能提升模型性能。
🎯 应用场景
该研究成果可应用于临床肿瘤信息管理系统,辅助医生自动生成肿瘤文档,提高工作效率,减少人为错误。未来,结合微调和优化提示策略,有望实现更智能化的临床文档处理,并推广到其他医学领域。
📄 摘要(原文)
Tumor documentation in Germany is largely done manually, requiring reading patient records and entering data into structured databases. Large language models (LLMs) could potentially enhance this process by improving efficiency and reliability. This evaluation tests eleven different open source LLMs with sizes ranging from 1-70 billion model parameters on three basic tasks of the tumor documentation process: identifying tumor diagnoses, assigning ICD-10 codes, and extracting the date of first diagnosis. For evaluating the LLMs on these tasks, a dataset of annotated text snippets based on anonymized doctors' notes from urology was prepared. Different prompting strategies were used to investigate the effect of the number of examples in few-shot prompting and to explore the capabilities of the LLMs in general. The models Llama 3.1 8B, Mistral 7B, and Mistral NeMo 12 B performed comparably well in the tasks. Models with less extensive training data or having fewer than 7 billion parameters showed notably lower performance, while larger models did not display performance gains. Examples from a different medical domain than urology could also improve the outcome in few-shot prompting, which demonstrates the ability of LLMs to handle tasks needed for tumor documentation. Open source LLMs show a strong potential for automating tumor documentation. Models from 7-12 billion parameters could offer an optimal balance between performance and resource efficiency. With tailored fine-tuning and well-designed prompting, these models might become important tools for clinical documentation in the future. The code for the evaluation is available from https://github.com/stefan-m-lenz/UroLlmEval. We also release the dataset as a new valuable resource that addresses the shortage of authentic and easily accessible benchmarks in German-language medical NLP.