Using Pretrained Large Language Model with Prompt Engineering to Answer Biomedical Questions

📄 arXiv: 2407.06779v1 📥 PDF

作者: Wenxin Zhou, Thuy Hang Ngo

分类: cs.CL

发布日期: 2024-07-09

备注: Submitted to Conference and Labs of the Evaluation Forum (CLEF) 2024 CEUR-WS


💡 一句话要点

利用预训练大语言模型与提示工程解决生物医学问答任务

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生物医学问答 预训练语言模型 提示工程 信息检索 后处理

📋 核心要点

  1. 现有生物医学问答系统难以有效利用海量医学文献,检索精度和答案质量有待提高。
  2. 该论文提出一种基于预训练大语言模型的两级信息检索和问答系统,侧重提示工程和后处理。
  3. 实验结果表明,该系统在BioASQ任务中取得了较好的性能,尤其在是非题和事实型问题上。

📝 摘要(中文)

本团队参与了BioASQ 2024 Task12b和Synergy任务,旨在构建一个能够通过检索PubMed数据库中的相关文章和片段,并生成精确和理想答案的生物医学问答系统。我们提出了一种基于预训练大语言模型(LLM)的两级信息检索和问答系统,重点关注LLM提示工程和响应后处理。我们构建了包含上下文少量样本的提示,并利用了重采样和畸形响应检测等后处理技术。我们比较了各种预训练LLM模型(包括Mixtral、OpenAI GPT和Llama2)在此挑战中的性能。我们表现最佳的系统在Task 12b中,文档检索的MAP得分为0.14,片段检索的MAP得分为0.05,是非题的F1得分为0.96,事实型问题的MRR得分为0.38,列表型问题的F1得分为0.50。

🔬 方法详解

问题定义:论文旨在解决生物医学领域的问答问题,即如何从海量的PubMed数据库中检索相关文献和片段,并生成准确、理想的答案。现有方法在处理复杂生物医学问题时,检索精度和答案质量往往不足,难以充分利用预训练语言模型的潜力。

核心思路:论文的核心思路是利用预训练大语言模型(LLM)强大的语言理解和生成能力,结合精心设计的提示工程和后处理技术,构建一个高效的两级信息检索和问答系统。通过提示工程引导LLM理解问题并生成答案,并通过后处理技术优化答案质量。

技术框架:该系统采用两级信息检索和问答框架。第一级是信息检索,从PubMed数据库中检索相关文章和片段。第二级是问答,利用LLM根据检索到的信息生成答案。整体流程包括:问题输入、信息检索(文档和片段)、提示构建、LLM推理、响应后处理、答案输出。

关键创新:该论文的关键创新在于将提示工程和后处理技术应用于生物医学问答任务。通过构建包含上下文少量样本的提示,引导LLM更好地理解问题并生成答案。同时,利用重采样和畸形响应检测等后处理技术,进一步提高答案的质量和可靠性。

关键设计:提示工程方面,论文采用了少量样本学习(few-shot learning),在提示中包含几个示例问题和答案,以帮助LLM理解问题的类型和答案的格式。后处理方面,论文采用了重采样技术,即多次运行LLM并选择最合适的答案。此外,还设计了畸形响应检测机制,用于过滤掉不符合要求的答案。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该系统在BioASQ 2024 Task12b中取得了显著成果。文档检索的MAP得分为0.14,片段检索的MAP得分为0.05,是非题的F1得分为0.96,事实型问题的MRR得分为0.38,列表型问题的F1得分为0.50。尤其在是非题上表现出色,证明了该方法在处理特定类型问题上的有效性。不同LLM模型性能对比也为后续研究提供了参考。

🎯 应用场景

该研究成果可应用于智能医学问答系统、临床决策支持系统、医学研究辅助工具等领域。通过快速准确地回答生物医学问题,可以帮助医生、研究人员和患者更好地理解医学知识,提高诊疗效率和研究水平,并促进医学知识的普及。

📄 摘要(原文)

Our team participated in the BioASQ 2024 Task12b and Synergy tasks to build a system that can answer biomedical questions by retrieving relevant articles and snippets from the PubMed database and generating exact and ideal answers. We propose a two-level information retrieval and question-answering system based on pre-trained large language models (LLM), focused on LLM prompt engineering and response post-processing. We construct prompts with in-context few-shot examples and utilize post-processing techniques like resampling and malformed response detection. We compare the performance of various pre-trained LLM models on this challenge, including Mixtral, OpenAI GPT and Llama2. Our best-performing system achieved 0.14 MAP score on document retrieval, 0.05 MAP score on snippet retrieval, 0.96 F1 score for yes/no questions, 0.38 MRR score for factoid questions and 0.50 F1 score for list questions in Task 12b.