Benchmarking Retrieval-Augmented Large Language Models in Biomedical NLP: Application, Robustness, and Self-Awareness

📄 arXiv: 2405.08151v3 📥 PDF

作者: Mingchen Li, Zaifu Zhan, Han Yang, Yongkang Xiao, Jiatan Huang, Rui Zhang

分类: cs.CL

发布日期: 2024-05-13 (更新: 2025-11-14)


💡 一句话要点

系统评估检索增强大语言模型在生物医学NLP中的应用、鲁棒性和自知能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强学习 大型语言模型 生物医学NLP 鲁棒性评估 自知能力

📋 核心要点

  1. 大型语言模型在生物医学NLP任务中表现出色,但对输入示例选择敏感,且存在幻觉问题。
  2. 论文提出使用检索增强LLM(RAL)来缓解幻觉问题,通过检索相关知识来提升模型性能。
  3. 论文构建评估框架,在5个生物医学任务和9个数据集上,评估RAL的鲁棒性和自知能力。

📝 摘要(中文)

大型语言模型(LLM)在各种生物医学自然语言处理(NLP)任务中表现出卓越的能力,能够利用输入上下文中的演示来适应新任务。然而,LLM对演示的选择很敏感。为了解决LLM中固有的幻觉问题,检索增强LLM(RAL)通过从已建立的数据库中检索相关信息来提供解决方案。然而,现有的研究工作缺乏对检索增强大型语言模型对不同生物医学NLP任务影响的严格评估。这种缺陷使得确定RAL在生物医学领域内的能力具有挑战性。此外,RAL的输出受到检索到的未标记、反事实或多样化知识的影响,这些知识在生物医学领域中没有得到充分研究。然而,这种知识在现实世界中很常见。最后,探索自知能力对于RAL系统也至关重要。因此,在本文中,我们系统地研究了RAL对5种不同的生物医学任务(三元组提取、链接预测、分类、问答和自然语言推理)的影响。我们分析了RAL在四个基本能力方面的性能,包括未标记鲁棒性、反事实鲁棒性、多样化鲁棒性和负面感知。为此,我们提出了一个评估框架,以评估RAL在不同生物医学NLP任务上的性能,并基于上述基本能力建立了四个不同的测试平台。然后,我们在9个数据集上评估了3个具有3个不同检索器的代表性LLM在5个任务上的表现。

🔬 方法详解

问题定义:现有的大型语言模型在生物医学NLP任务中面临着幻觉问题,即生成不真实或不准确的信息。此外,LLM对输入示例的选择非常敏感,不同的示例可能导致不同的结果。现有的研究缺乏对检索增强LLM在生物医学领域的系统性评估,难以确定其有效性和适用性。

核心思路:论文的核心思路是利用检索增强LLM(RAL)来缓解幻觉问题,并通过检索相关知识来提升模型在生物医学NLP任务中的性能。RAL通过从外部知识库中检索相关信息,为LLM提供更可靠的上下文,从而减少幻觉的产生。

技术框架:论文构建了一个评估框架,用于评估RAL在不同生物医学NLP任务上的性能。该框架包括以下几个主要模块:1) 五种不同的生物医学NLP任务(三元组提取、链接预测、分类、问答和自然语言推理);2) 三种代表性的大型语言模型;3) 三种不同的检索器;4) 四个基于基本能力的测试平台(未标记鲁棒性、反事实鲁棒性、多样化鲁棒性和负面感知);5) 九个数据集。整体流程是,首先针对每个任务,使用不同的检索器从知识库中检索相关信息,然后将检索到的信息与输入文本一起输入到LLM中,最后评估LLM的输出结果。

关键创新:论文的关键创新在于:1) 系统性地评估了RAL在生物医学NLP任务中的应用,并分析了其在不同鲁棒性方面的表现;2) 提出了一个评估框架,用于评估RAL在不同生物医学NLP任务上的性能;3) 构建了四个基于基本能力的测试平台,用于评估RAL的未标记鲁棒性、反事实鲁棒性、多样化鲁棒性和负面感知。

关键设计:论文的关键设计包括:1) 选择了五种不同的生物医学NLP任务,涵盖了不同的应用场景;2) 选择了三种代表性的大型语言模型,包括不同规模和架构的模型;3) 选择了三种不同的检索器,包括基于关键词的检索器和基于语义的检索器;4) 构建了四个基于基本能力的测试平台,用于评估RAL在不同鲁棒性方面的表现;5) 使用了多个数据集,以确保评估结果的可靠性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,RAL在多种生物医学NLP任务中表现出良好的性能,尤其是在处理未标记、反事实和多样化知识时,其鲁棒性得到了显著提升。例如,在问答任务中,使用RAL的模型相比于未使用RAL的模型,准确率提升了10%以上。此外,实验还发现,不同的检索器对RAL的性能有显著影响。

🎯 应用场景

该研究成果可应用于多种生物医学NLP场景,例如辅助医生进行疾病诊断、药物研发、生物医学知识库构建等。通过提高LLM在生物医学领域的准确性和可靠性,可以为医疗健康行业提供更智能、更高效的解决方案,并最终改善患者的治疗效果。

📄 摘要(原文)

Large language models (LLM) have demonstrated remarkable capabilities in various biomedical natural language processing (NLP) tasks, leveraging the demonstration within the input context to adapt to new tasks. However, LLM is sensitive to the selection of demonstrations. To address the hallucination issue inherent in LLM, retrieval-augmented LLM (RAL) offers a solution by retrieving pertinent information from an established database. Nonetheless, existing research work lacks rigorous evaluation of the impact of retrieval-augmented large language models on different biomedical NLP tasks. This deficiency makes it challenging to ascertain the capabilities of RAL within the biomedical domain. Moreover, the outputs from RAL are affected by retrieving the unlabeled, counterfactual, or diverse knowledge that is not well studied in the biomedical domain. However, such knowledge is common in the real world. Finally, exploring the self-awareness ability is also crucial for the RAL system. So, in this paper, we systematically investigate the impact of RALs on 5 different biomedical tasks (triple extraction, link prediction, classification, question answering, and natural language inference). We analyze the performance of RALs in four fundamental abilities, including unlabeled robustness, counterfactual robustness, diverse robustness, and negative awareness. To this end, we proposed an evaluation framework to assess the RALs' performance on different biomedical NLP tasks and establish four different testbeds based on the aforementioned fundamental abilities. Then, we evaluate 3 representative LLMs with 3 different retrievers on 5 tasks over 9 datasets.