Improving Drug Identification in Overdose Death Surveillance using Large Language Models
作者: Arthur J. Funnell, Panayiotis Petousis, Fabrice Harel-Canada, Ruby Romero, Alex A. T. Bui, Adam Koncsol, Hritika Chaturvedi, Chelsea Shover, David Goodman-Meza
分类: cs.CL, q-bio.QM
发布日期: 2025-07-16
备注: 30 pages, 1 figure, 4 tables, 2 supplemental figures, 4 supplemental tables, submitted to Journal of Forensic Sciences (JFS)
💡 一句话要点
利用大型语言模型改进药物过量死亡监测中的药物识别
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 药物过量死亡监测 自然语言处理 大型语言模型 BioClinicalBERT 文本分类
📋 核心要点
- 现有药物过量死亡监测依赖人工编码,耗时且易丢失信息,无法及时反映药物滥用趋势。
- 本文提出利用自然语言处理技术,特别是微调的BioClinicalBERT模型,自动从验尸报告中识别涉案药物。
- 实验表明,该方法在内部和外部验证中均表现出色,显著优于传统方法和通用语言模型。
📝 摘要(中文)
美国药物相关死亡率不断上升,其中芬太尼是主要因素,这需要及时准确的监测。然而,关键的过量数据通常隐藏在自由文本的验尸官报告中,当被编码为ICD(国际疾病分类)-10分类时,会导致延迟和信息丢失。自然语言处理(NLP)模型可以自动化并增强过量监测,但之前的应用受到限制。本文使用了来自美国多个司法管辖区2020年的35433份死亡记录数据集进行模型训练和内部测试。使用来自2023-2024年的3335份记录的新数据集进行外部验证。评估了多种NLP方法,用于从非结构化死亡证明文本中对特定药物的参与进行分类。这些方法包括传统的单标签和多标签分类器,以及微调的仅编码器语言模型,如BERT和BioClinicalBERT,以及现代的仅解码器大型语言模型,如Qwen 3和Llama 3。使用宏平均F1分数评估模型性能,并计算95%置信区间以量化不确定性。微调的BioClinicalBERT模型取得了接近完美的性能,在内部测试集上的宏F1分数>=0.998。外部验证证实了稳健性(宏F1=0.966),优于传统的机器学习、通用领域BERT模型和各种仅解码器大型语言模型。NLP模型,特别是像BioClinicalBERT这样的微调临床变体,为从自由文本报告中进行过量死亡分类提供了一个高度准确和可扩展的解决方案。这些方法可以显著加速监测工作流程,克服手动ICD-10编码的局限性,并支持近实时地检测新兴的药物使用趋势。
🔬 方法详解
问题定义:论文旨在解决药物过量死亡监测中,由于依赖人工ICD-10编码导致的数据延迟和信息损失问题。现有的手动编码过程耗时且容易出错,无法及时准确地反映药物滥用趋势,阻碍了公共卫生干预措施的有效实施。
核心思路:论文的核心思路是利用自然语言处理(NLP)技术,特别是大型语言模型,自动从自由文本的验尸官报告中提取和分类涉案药物信息。通过训练和微调这些模型,使其能够准确识别报告中提及的各种药物,从而加速数据处理流程,提高监测效率。
技术框架:整体框架包括数据收集与预处理、模型训练与微调、模型评估与验证三个主要阶段。首先,收集包含自由文本验尸报告的死亡记录数据集,并进行清洗和标注。然后,选择多种NLP模型,包括传统的机器学习分类器、BERT及其临床变体BioClinicalBERT,以及Qwen 3和Llama 3等大型语言模型,进行训练和微调。最后,使用内部测试集和外部验证集评估模型的性能,并比较不同模型之间的表现。
关键创新:最重要的技术创新点在于,证明了微调的临床领域语言模型(如BioClinicalBERT)在药物过量死亡分类任务中的卓越性能。与通用领域的BERT模型和仅解码器的大型语言模型相比,BioClinicalBERT能够更好地理解和处理医学文本中的复杂信息,从而实现更高的分类准确率。
关键设计:论文采用了宏平均F1分数作为模型评估指标,以平衡不同药物类别之间的样本不平衡问题。此外,通过使用95%置信区间来量化模型性能的不确定性。在模型微调过程中,使用了交叉熵损失函数来优化模型参数,并采用了适当的学习率和训练策略,以防止过拟合。
📊 实验亮点
实验结果表明,微调的BioClinicalBERT模型在内部测试集上取得了接近完美的性能,宏F1分数>=0.998。在外部验证集上,该模型也表现出色,宏F1分数为0.966,显著优于传统的机器学习方法、通用领域的BERT模型以及各种仅解码器的大型语言模型,证明了其在实际应用中的稳健性和有效性。
🎯 应用场景
该研究成果可应用于公共卫生领域的药物过量死亡监测,实现对药物滥用趋势的近实时检测和预警。通过自动化药物识别过程,可以显著缩短数据处理时间,提高监测效率,为制定更有针对性的干预措施提供支持。此外,该方法还可扩展到其他医学文本分析任务,如疾病诊断和药物不良反应监测。
📄 摘要(原文)
The rising rate of drug-related deaths in the United States, largely driven by fentanyl, requires timely and accurate surveillance. However, critical overdose data are often buried in free-text coroner reports, leading to delays and information loss when coded into ICD (International Classification of Disease)-10 classifications. Natural language processing (NLP) models may automate and enhance overdose surveillance, but prior applications have been limited. A dataset of 35,433 death records from multiple U.S. jurisdictions in 2020 was used for model training and internal testing. External validation was conducted using a novel separate dataset of 3,335 records from 2023-2024. Multiple NLP approaches were evaluated for classifying specific drug involvement from unstructured death certificate text. These included traditional single- and multi-label classifiers, as well as fine-tuned encoder-only language models such as Bidirectional Encoder Representations from Transformers (BERT) and BioClinicalBERT, and contemporary decoder-only large language models such as Qwen 3 and Llama 3. Model performance was assessed using macro-averaged F1 scores, and 95% confidence intervals were calculated to quantify uncertainty. Fine-tuned BioClinicalBERT models achieved near-perfect performance, with macro F1 scores >=0.998 on the internal test set. External validation confirmed robustness (macro F1=0.966), outperforming conventional machine learning, general-domain BERT models, and various decoder-only large language models. NLP models, particularly fine-tuned clinical variants like BioClinicalBERT, offer a highly accurate and scalable solution for overdose death classification from free-text reports. These methods can significantly accelerate surveillance workflows, overcoming the limitations of manual ICD-10 coding and supporting near real-time detection of emerging substance use trends.