Large language models management of medications: three performance analyses

📄 arXiv: 2509.22926v2 📥 PDF

作者: Kelli Henry, Steven Xu, Kaitlin Blotske, Moriah Cargile, Erin F. Barreto, Brian Murray, Susan Smith, Seth R. Bauer, Xingmeng Zhao, Adeleine Tilley, Yanjun Gao, Tianming Liu, Sunghwan Sohn, Andrea Sikora

分类: cs.CL, cs.AI

发布日期: 2025-09-26 (更新: 2025-10-14)


💡 一句话要点

评估大型语言模型在药物管理任务中的表现,揭示其在药物推荐方面的局限性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 药物管理 药物相互作用 临床评估 GPT-4o

📋 核心要点

  1. 现有大型语言模型在诊断任务中表现出潜力,但在药物管理方面的一致性评估不足,存在挑战。
  2. 本研究利用GPT-4o评估其在药物配方匹配、药物相互作用识别和药物医嘱生成三个任务中的性能。
  3. 实验结果表明,GPT-4o在药物管理任务中表现不佳,需要领域特定训练和更全面的评估框架。

📝 摘要(中文)

本研究旨在评估大型语言模型(LLMs)在药物管理任务中的一致性,特别是针对特定诊断推荐合适的药物方案。药物管理是一项复杂的任务,需要综合药物配方和完整的医嘱信息以确保安全使用。本研究测试了GPT-4o(ChatGPT中的LLM)在三个药物管理任务中的表现:识别给定通用药物名称的可用配方、识别给定药物方案的药物-药物相互作用(DDI)以及为给定通用药物名称准备药物医嘱。结果表明,在药物配方匹配任务中,GPT-4o的准确率为49%,平均每种药物遗漏1.23种配方,产生1.14个幻觉。在药物-药物相互作用识别任务中,准确率为54.7%。在药物医嘱生成任务中,GPT-4o在65.8%的情况下生成了不包含药物或缩写错误的医嘱语句。结论是,模型在基本药物任务中的表现始终较差,强调需要通过临床医生注释的数据集进行领域特定训练,并建立全面的评估框架来衡量性能。

🔬 方法详解

问题定义:论文旨在评估大型语言模型在药物管理方面的能力,具体包括药物配方匹配、药物相互作用识别和药物医嘱生成三个任务。现有方法,即直接使用通用LLM,在这些任务中表现出不足,无法保证药物推荐的准确性和安全性,存在潜在的医疗风险。

核心思路:论文的核心思路是直接测试现有大型语言模型(GPT-4o)在药物管理任务中的表现,通过量化其准确率、遗漏率和幻觉率,来评估其在药物管理领域的适用性。这种方法旨在揭示通用LLM在处理专业医疗知识方面的局限性,从而为后续的领域特定训练和模型优化提供依据。

技术框架:研究采用实验性评估框架,包含三个主要任务:1) 药物配方匹配:给定通用药物名称,模型需要识别所有可用的药物配方。2) 药物-药物相互作用识别:给定药物方案,模型需要识别潜在的药物-药物相互作用。3) 药物医嘱生成:给定通用药物名称,模型需要生成完整的药物医嘱语句。对于每个任务,研究人员记录模型的原始文本输出,并使用临床医生评估以及标准LLM指标(TF-IDF向量、归一化Levenshtein相似度、ROUGE 1/ROUGE L F1)进行评估。

关键创新:该研究的关键创新在于直接评估了通用大型语言模型在药物管理这一关键医疗领域的性能。以往的研究更多关注LLM在诊断等任务中的应用,而忽略了药物管理这一需要高度专业知识和准确性的领域。通过对GPT-4o的全面评估,该研究揭示了通用LLM在药物管理方面的局限性,强调了领域特定训练的必要性。

关键设计:在评估指标方面,研究采用了临床医生评估和标准LLM指标相结合的方式。临床医生评估能够更准确地判断模型输出的临床意义和安全性,而标准LLM指标则能够量化模型输出的相似度和准确性。此外,研究还详细记录了模型输出的遗漏率和幻觉率,从而更全面地评估了模型的性能。

📊 实验亮点

实验结果表明,GPT-4o在药物配方匹配任务中的准确率为49%,平均每种药物遗漏1.23种配方,产生1.14个幻觉。在药物-药物相互作用识别任务中,准确率为54.7%。在药物医嘱生成任务中,GPT-4o在65.8%的情况下生成了不包含药物或缩写错误的医嘱语句。这些数据表明,通用LLM在药物管理任务中表现不佳,需要进一步优化。

🎯 应用场景

该研究结果可应用于指导医疗领域的大型语言模型开发,强调领域特定训练的重要性。未来,通过构建高质量的临床医生注释数据集,并结合全面的评估框架,可以开发出更安全、更可靠的药物管理AI助手,辅助医生进行药物决策,提高患者用药安全。

📄 摘要(原文)

Purpose: Large language models (LLMs) have proven performance for certain diagnostic tasks, however limited studies have evaluated their consistency in recommending appropriate medication regimens for a given diagnosis. Medication management is a complex task that requires synthesis of drug formulation and complete order instructions for safe use. Here, the performance of GPT 4o, an LLM available with ChatGPT, was tested for three medication management tasks. Methods: GPT-4o performance was tested using three medication tasks: identifying available formulations for a given generic drug name, identifying drug-drug interactions (DDI) for a given medication regimen, and preparing a medication order for a given generic drug name. For each experiment, the models raw text response was captured exactly as returned and evaluated using clinician evaluation in addition to standard LLM metrics, including Term Frequency-Inverse Document Frequency (TF IDF) vectors, normalized Levenshtein similarity, and Recall-Oriented Understudy for Gisting Evaluation (ROUGE 1/ROUGE L F1) between each response and its reference string. Results: For the first task of drug-formulation matching, GPT-4o had 49% accuracy for generic medications being matched to all available formulations, with an average of 1.23 omissions per medication and 1.14 hallucinations per medication. For the second task of drug-drug interaction identification, the accuracy was 54.7% for identifying the DDI pair. For the third task, GPT-4o generated order sentences containing no medication or abbreviation errors in 65.8% of cases. Conclusions: Model performance for basic medication tasks was consistently poor. This evaluation highlights the need for domain-specific training through clinician-annotated datasets and a comprehensive evaluation framework for benchmarking performance.