Coding historical causes of death data with Large Language Models
作者: Bjørn Pedersen, Maisha Islam, Doris Tove Kristoffersen, Lars Ailo Bongo, Eilidh Garrett, Alice Reid, Hilde Sommerseth
分类: cs.LG
发布日期: 2024-05-13
备注: 18 pages, 1 figure in main text, 3 figures in appendix
💡 一句话要点
利用大型语言模型自动标注历史死因数据ICD-10编码
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 ICD-10编码 历史死因数据 自然语言处理 文本分类
📋 核心要点
- 历史死因数据包含复杂叙述,人工编码耗时且依赖专家知识,自动化编码面临挑战。
- 利用大型语言模型(LLMs)的生成能力,尝试自动将历史死因数据映射到ICD-10编码。
- 实验表明,GPT-4表现最佳,准确率达83%,但仍低于传统机器学习方法(89%),对古老术语识别较差。
📝 摘要(中文)
本文探讨了使用预训练生成式大型语言模型(LLMs)自动将ICD-10编码分配给历史死因的可行性。由于历史死因记录中常包含复杂的叙述,传统上这项任务由编码专家手动完成。我们评估了GPT-3.5、GPT-4和Llama 2 LLMs在HiCaD数据集上准确分配ICD-10编码的能力。该数据集包含1861-1901年间来自英国伊普斯维奇、基尔马诺克和斯凯岛的19361人的民事死亡登记记录中的死因。结果表明,GPT-3.5、GPT-4和Llama 2分别对69%、83%和40%的死因分配了正确的编码。然而,通过标准机器学习技术,我们实现了89%的最高准确率。所有LLMs在包含当今仍在使用的术语的死因方面表现更好,而对于古老的术语则表现较差。此外,它们对较短的死因(1-2个词)比对较长的死因表现更好。因此,LLMs目前在历史ICD-10编码分配任务中的表现不够好。我们建议进一步微调或采用替代框架以实现足够的性能。
🔬 方法详解
问题定义:论文旨在解决历史死因数据ICD-10编码的自动化问题。传统方法依赖人工编码,耗时且需要领域专家知识。现有机器学习方法在处理历史文本的复杂性和多样性方面存在局限性,难以达到理想的准确率。
核心思路:论文的核心思路是利用预训练大型语言模型(LLMs)的强大文本理解和生成能力,直接将历史死因描述转换为对应的ICD-10编码。LLMs在大量文本数据上进行预训练,具备一定的医学知识和推理能力,有望克服传统方法的局限性。
技术框架:整体框架包括数据准备、模型选择和评估三个主要阶段。首先,从HiCaD数据集中提取历史死因描述及其对应的ICD-10编码。然后,选择GPT-3.5、GPT-4和Llama 2三种LLMs作为编码模型。最后,使用准确率作为评估指标,比较不同模型在历史死因编码任务上的性能。
关键创新:论文的关键创新在于将大型语言模型应用于历史死因数据的ICD-10编码任务。与传统的机器学习方法相比,LLMs无需手动特征工程,能够直接从文本中学习语义信息,并生成对应的编码。
关键设计:论文的关键设计包括:1)选择合适的LLMs,如GPT-3.5、GPT-4和Llama 2,以探索不同模型的性能差异;2)使用HiCaD数据集进行评估,该数据集包含真实的英国历史死因记录;3)采用准确率作为评估指标,衡量模型编码的准确性。
📊 实验亮点
实验结果表明,GPT-4在历史死因ICD-10编码任务中表现最佳,准确率达到83%,优于GPT-3.5(69%)和Llama 2(40%)。然而,所有LLMs的性能均低于使用标准机器学习技术获得的最高准确率(89%)。LLMs对包含现代术语的死因编码效果更好,对短死因描述的编码效果也优于长描述。
🎯 应用场景
该研究成果可应用于历史医学研究、公共卫生数据分析和疾病趋势预测等领域。通过自动化历史死因编码,可以更高效地分析历史疾病模式,为现代医学研究提供参考,并为公共卫生政策制定提供依据。未来,该技术还可扩展到其他历史文本数据的编码和分析。
📄 摘要(原文)
This paper investigates the feasibility of using pre-trained generative Large Language Models (LLMs) to automate the assignment of ICD-10 codes to historical causes of death. Due to the complex narratives often found in historical causes of death, this task has traditionally been manually performed by coding experts. We evaluate the ability of GPT-3.5, GPT-4, and Llama 2 LLMs to accurately assign ICD-10 codes on the HiCaD dataset that contains causes of death recorded in the civil death register entries of 19,361 individuals from Ipswich, Kilmarnock, and the Isle of Skye from the UK between 1861-1901. Our findings show that GPT-3.5, GPT-4, and Llama 2 assign the correct code for 69%, 83%, and 40% of causes, respectively. However, we achieve a maximum accuracy of 89% by standard machine learning techniques. All LLMs performed better for causes of death that contained terms still in use today, compared to archaic terms. Also they perform better for short causes (1-2 words) compared to longer causes. LLMs therefore do not currently perform well enough for historical ICD-10 code assignment tasks. We suggest further fine-tuning or alternative frameworks to achieve adequate performance.