Enhancing Large Language Models with Domain-specific Retrieval Augment Generation: A Case Study on Long-form Consumer Health Question Answering in Ophthalmology

📄 arXiv: 2409.13902v1 📥 PDF

作者: Aidan Gilson, Xuguang Ai, Thilaka Arunachalam, Ziyou Chen, Ki Xiong Cheong, Amisha Dave, Cameron Duic, Mercy Kibe, Annette Kaminaka, Minali Prasad, Fares Siddig, Maxwell Singer, Wendy Wong, Qiao Jin, Tiarnan D. L. Keenan, Xia Hu, Emily Y. Chew, Zhiyong Lu, Hua Xu, Ron A. Adelman, Yih-Chung Tham, Qingyu Chen

分类: cs.CL, cs.AI

发布日期: 2024-09-20


💡 一句话要点

利用领域检索增强生成提升医学大语言模型:眼科长文本问答案例研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 检索增强生成 眼科 长文本问答 医学问答 知识库 证据归属

📋 核心要点

  1. 医学领域的大语言模型面临生成缺乏证据支持或虚构信息的挑战,限制了其可靠性。
  2. 论文提出了一种基于眼科领域知识的检索增强生成(RAG)流程,用于提升LLM在长文本问答中的表现。
  3. 实验表明,RAG显著提高了LLM回答的准确性,降低了错误率,并改善了证据归属,但准确性和完整性略有下降。

📝 摘要(中文)

尽管大型语言模型(LLM)在医学领域具有潜力,但它们可能生成缺乏证据支持或基于虚构证据的回答。检索增强生成(RAG)是解决此问题的常用方法,但很少有研究在下游领域特定应用中实施和评估RAG。我们开发了一个包含70,000份眼科特定文档的RAG流程,该流程检索相关文档以在推理时增强LLM。在一项关于长篇消费者健康问题的案例研究中,我们系统地评估了LLM在有和没有RAG的情况下,对100个问题的回答,包括500多个参考文献,并由10名医疗专业人员进行评估。评估侧重于证据的真实性、证据的选择和排序、证据的归属以及答案的准确性和完整性。没有RAG的LLM总共提供了252个参考文献,其中45.3%是虚构的,34.1%包含小错误,20.6%是正确的。相比之下,使用RAG的LLM显著提高了准确性(54.5%是正确的)并降低了错误率(18.8%有小虚构,26.7%有错误)。RAG检索到的前10个文档中有62.5%被选为LLM响应中的首要参考文献,平均排名为4.9。RAG的使用还改善了证据归属(在5分制中从1.85增加到2.49,P<0.001),尽管准确性略有下降(从3.52降至3.23,P=0.03)和完整性(从3.47降至3.27,P=0.17)。结果表明,LLM在响应中经常表现出虚构和错误的证据,这引起了对医学领域下游应用的担忧。RAG大大减少了此类证据的比例,但也遇到了挑战。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在医学领域,特别是眼科长文本消费者健康问答中,生成不准确、缺乏证据支持甚至虚构信息的难题。现有方法,即直接使用LLM进行问答,容易产生幻觉,导致医疗建议的不可靠性。

核心思路:论文的核心思路是利用检索增强生成(RAG)框架,在LLM生成答案之前,先从一个包含大量眼科领域知识的文档库中检索相关信息,并将这些信息作为LLM的上下文输入,从而引导LLM生成更准确、更可靠的答案。这样设计的目的是让LLM在生成答案时能够参考真实的、经过验证的知识,减少幻觉的产生。

技术框架:该RAG流程包含以下主要模块:1) 文档库构建:构建包含70,000份眼科特定文档的知识库。2) 检索模块:根据用户提出的问题,从文档库中检索出最相关的文档。检索算法的具体选择未知。3) LLM增强:将检索到的文档作为上下文信息,输入到LLM中,让LLM基于这些信息生成答案。4) 评估模块:通过人工评估,对LLM生成的答案进行评估,包括证据的真实性、证据的选择和排序、证据的归属以及答案的准确性和完整性。

关键创新:该研究的关键创新在于将RAG应用于眼科领域的长文本消费者健康问答,并进行了系统的评估。虽然RAG本身不是一个全新的技术,但将其应用于特定的医学领域,并针对该领域的特点进行优化和评估,具有重要的实际意义。此外,论文还深入分析了RAG在提高准确性和减少幻觉方面的效果,以及存在的挑战。

关键设计:论文中关于RAG的具体实现细节,例如检索算法的选择、LLM模型的选择、以及如何将检索到的文档融入LLM的输入等,没有详细描述。评估指标包括证据的真实性、证据的选择和排序、证据的归属以及答案的准确性和完整性。这些指标由10名医疗专业人员进行评估,保证了评估的客观性和专业性。

📊 实验亮点

实验结果表明,使用RAG后,LLM回答的准确性从20.6%提升到54.5%,错误率显著降低。RAG检索到的前10个文档中有62.5%被选为LLM响应中的首要参考文献,平均排名为4.9。证据归属也得到了改善(从1.85增加到2.49,P<0.001)。这些数据表明,RAG能够有效提升LLM在眼科长文本问答中的表现。

🎯 应用场景

该研究成果可应用于构建更可靠的医学问答系统,为患者提供准确的健康信息,辅助医生进行诊断和治疗决策。未来,该方法可以推广到其他医学领域,甚至更广泛的专业领域,提升LLM在知识密集型任务中的表现,减少幻觉问题,提高应用价值。

📄 摘要(原文)

Despite the potential of Large Language Models (LLMs) in medicine, they may generate responses lacking supporting evidence or based on hallucinated evidence. While Retrieval Augment Generation (RAG) is popular to address this issue, few studies implemented and evaluated RAG in downstream domain-specific applications. We developed a RAG pipeline with 70,000 ophthalmology-specific documents that retrieve relevant documents to augment LLMs during inference time. In a case study on long-form consumer health questions, we systematically evaluated the responses including over 500 references of LLMs with and without RAG on 100 questions with 10 healthcare professionals. The evaluation focuses on factuality of evidence, selection and ranking of evidence, attribution of evidence, and answer accuracy and completeness. LLMs without RAG provided 252 references in total. Of which, 45.3% hallucinated, 34.1% consisted of minor errors, and 20.6% were correct. In contrast, LLMs with RAG significantly improved accuracy (54.5% being correct) and reduced error rates (18.8% with minor hallucinations and 26.7% with errors). 62.5% of the top 10 documents retrieved by RAG were selected as the top references in the LLM response, with an average ranking of 4.9. The use of RAG also improved evidence attribution (increasing from 1.85 to 2.49 on a 5-point scale, P<0.001), albeit with slight decreases in accuracy (from 3.52 to 3.23, P=0.03) and completeness (from 3.47 to 3.27, P=0.17). The results demonstrate that LLMs frequently exhibited hallucinated and erroneous evidence in the responses, raising concerns for downstream applications in the medical domain. RAG substantially reduced the proportion of such evidence but encountered challenges.