Employing General-Purpose and Biomedical Large Language Models with Advanced Prompt Engineering for Pharmacoepidemiologic Study Design

📄 arXiv: 2604.17988v1 📥 PDF

作者: Xinyao Zhang, Nicole Sonne Heckmann, Manuela Del Castillo Suero, Francesco Paolo Speca, Maurizio Sessa

分类: cs.CL

发布日期: 2026-04-20


💡 一句话要点

利用通用和生物医学大语言模型及高级Prompt工程改进药物流行病学研究设计

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 药物流行病学 研究设计 Prompt工程 生物医学 自然语言处理 人工智能

📋 核心要点

  1. 现有药物流行病学研究设计依赖人工,效率低且易出错,缺乏对大语言模型可靠性的充分评估。
  2. 采用通用和生物医学大语言模型,结合Least-to-Most和Active Prompting策略,评估其在药物流行病学研究设计中的性能。
  3. 实验表明,通用大语言模型结合LTM提示策略在相关性和论证逻辑方面表现更优,但所有模型在本体代码映射方面均有提升空间。

📝 摘要(中文)

背景:大语言模型(LLM)在自动化和支持药物流行病学研究设计方面的潜力日益受到关注,但其可靠性仍未得到充分表征。通用LLM通常表现出不准确性,而专门的生物医学LLM在该领域的比较性能仍然未知。方法:本研究评估了通用LLM(GPT-4o和DeepSeek-R1)与生物医学微调LLM(QuantFactory/Bio-Medical-Llama-3-8B-GGUF和Irathernotsay/qwen2-1.5B-medical_qa-Finetune)在来自HMA-EMA目录和Sentinel系统的46个协议(2018-2024)上的表现。使用Least-to-Most(LTM)和Active Prompting策略,评估了跨多个编码系统的相关性、论证逻辑和本体代码一致性。结果:GPT-4o和DeepSeek-R1与LTM提示配对实现了最高的 relevance 和论证逻辑分数,其中GPT-4o-LTM在HMA-EMA协议的9个问题中的8个问题中达到了4的中位数 relevance 分数。生物医学LLM总体上显示出较低的 relevance,并且经常产生不足的论证。所有LLM在本体代码映射方面的熟练程度有限,尽管LTM在推理稳定性方面提供了最一致的改进。结论:与生物医学LLM相比,现成的通用LLM目前为药物流行病学设计提供更好的支持。Prompt策略强烈影响了LLM的性能。

🔬 方法详解

问题定义:论文旨在评估通用和生物医学大语言模型在药物流行病学研究设计中的性能,并探索Prompt工程对模型性能的影响。现有方法依赖人工设计,效率低且易出错。通用LLM虽然强大,但在特定领域的应用中可能存在不准确性,而生物医学LLM的性能尚未得到充分评估。

核心思路:论文的核心思路是比较不同类型的大语言模型(通用 vs. 生物医学)在药物流行病学研究设计任务中的表现,并研究不同的Prompt策略(Least-to-Most和Active Prompting)对模型性能的影响。通过对比实验,确定哪种类型的模型和Prompt策略能够更好地支持药物流行病学研究设计。

技术框架:整体框架包括以下几个主要步骤:1) 选择通用和生物医学大语言模型;2) 收集药物流行病学研究协议作为测试数据集;3) 设计不同的Prompt策略;4) 使用不同的模型和Prompt策略组合生成研究设计方案;5) 评估生成方案的相关性、论证逻辑和本体代码一致性。

关键创新:该研究的关键创新在于:1) 系统地比较了通用和生物医学大语言模型在药物流行病学研究设计中的性能;2) 探索了Prompt工程对模型性能的影响,特别是Least-to-Most和Active Prompting策略;3) 使用真实世界的药物流行病学研究协议作为测试数据集,提高了研究的实际意义。

关键设计:研究中使用了以下关键设计:1) 选择了GPT-4o和DeepSeek-R1作为通用大语言模型,QuantFactory/Bio-Medical-Llama-3-8B-GGUF和Irathernotsay/qwen2-1.5B-medical_qa-Finetune作为生物医学大语言模型;2) 使用HMA-EMA目录和Sentinel系统中的46个协议作为测试数据集;3) 使用Least-to-Most和Active Prompting作为Prompt策略;4) 使用相关性、论证逻辑和本体代码一致性作为评估指标。

📊 实验亮点

实验结果表明,通用大语言模型(GPT-4o和DeepSeek-R1)结合Least-to-Most提示策略在相关性和论证逻辑方面表现优于生物医学大语言模型。GPT-4o-LTM在HMA-EMA协议的9个问题中的8个问题中达到了4的中位数相关性分数。所有模型在本体代码映射方面均有提升空间,LTM策略在推理稳定性方面提供了最一致的改进。

🎯 应用场景

该研究成果可应用于药物流行病学研究设计自动化,辅助研究人员快速生成研究方案,提高研究效率和质量。同时,该研究也为大语言模型在医疗领域的应用提供了参考,有助于推动人工智能在医疗健康领域的更广泛应用。

📄 摘要(原文)

Background: The potential of large language models (LLMs) to automate and support pharmacoepidemiologic study design is an emerging area of interest, yet their reliability remains insufficiently characterized. General-purpose LLMs often display inaccuracies, while the comparative performance of specialized biomedical LLMs in this domain remains unknown. Methods: This study evaluated general-purpose LLMs (GPT-4o and DeepSeek-R1) versus biomedically fine-tuned LLMs (QuantFactory/Bio-Medical-Llama-3-8B-GGUF and Irathernotsay/qwen2-1.5B-medical_qa-Finetune) using 46 protocols (2018-2024) from the HMA-EMA Catalogue and Sentinel System. Performance was assessed across relevance, logic of justification, and ontology-code agreement across multiple coding systems using Least-to-Most (LTM) and Active Prompting strategies. Results: GPT-4o and DeepSeek-R1 paired with LTM prompting achieved the highest relevance and logic of justification scores, with GPT-4o-LTM reaching a median relevance score of 4 in 8 of 9 questions for HMA-EMA protocols. Biomedical LLMs showed lower relevance overall and frequently generated insufficient justification. All LLMs demonstrated limited proficiency in ontology-code mapping, although LTM provided the most consistent improvements in reasoning stability. Conclusion: Off-the-shelf general-purpose LLMs currently offer superior support for pharmacoepidemiologic design compared to biomedical LLMs. Prompt strategy strongly influenced LLM performance.