Evaluating Search Engines and Large Language Models for Answering Health Questions

📄 arXiv: 2407.12468v3 📥 PDF

作者: Marcos Fernández-Pichel, Juan C. Pichel, David E. Losada

分类: cs.IR, cs.AI

发布日期: 2024-07-17 (更新: 2025-03-06)

DOI: 10.1038/s41746-025-01546-w


💡 一句话要点

评估搜索引擎与大型语言模型在健康问题解答中的表现,并探索RAG的增强效果。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 健康问答 大型语言模型 搜索引擎 检索增强生成 信息检索 TREC健康虚假信息

📋 核心要点

  1. 传统上,搜索引擎是信息检索的主要工具,但大型语言模型正成为强大的替代方案,尤其是在问答任务中。
  2. 本研究旨在评估搜索引擎和大型语言模型在回答健康相关问题方面的表现,并探索检索增强生成方法对LLM的增强效果。
  3. 实验结果表明,LLM在健康问题解答方面优于传统搜索引擎,而RAG方法能够显著提升小型LLM的性能。

📝 摘要(中文)

本研究对比了四种流行的搜索引擎(SEs)、七种大型语言模型(LLMs)以及检索增强生成(RAG)变体在回答TREC健康虚假信息(HM)Track中的150个健康相关问题时的性能。结果表明,搜索引擎正确回答了50%到70%的问题,但常常受到大量检索结果与健康问题无关的阻碍。大型语言模型表现出更高的准确性,正确回答了约80%的问题,但其性能对输入提示词敏感。RAG方法通过整合检索证据,显著提高了较小型LLM的有效性,准确率提升高达30%。

🔬 方法详解

问题定义:论文旨在评估搜索引擎和大型语言模型在回答健康相关问题时的能力。现有搜索引擎在处理此类问题时,常常返回大量不相关的信息,导致用户难以找到准确答案。而大型语言模型虽然具备一定的知识储备,但可能存在知识盲区或生成不准确的信息。

核心思路:论文的核心思路是对比不同搜索引擎和大型语言模型在健康问答任务中的表现,并探索检索增强生成(RAG)方法如何利用外部知识来提升LLM的性能。通过将检索到的相关信息融入LLM的输入,RAG旨在弥补LLM的知识不足,提高答案的准确性和可靠性。

技术框架:整体框架包含三个主要部分:问题输入、信息检索与模型生成。首先,将健康相关问题输入到搜索引擎和LLM中。对于RAG方法,首先使用问题在外部知识库中进行检索,然后将检索到的信息与原始问题一起输入到LLM中。最后,评估不同方法生成的答案的准确性。

关键创新:该研究的关键创新在于系统性地比较了搜索引擎、LLM和RAG方法在健康问答任务中的表现,并量化了RAG方法对不同规模LLM的增强效果。此外,研究还分析了LLM对输入提示词的敏感性,为实际应用中选择合适的提示词提供了参考。

关键设计:研究使用了TREC健康虚假信息(HM)Track中的150个健康相关问题作为评估数据集。评估指标主要为答案的准确性。对于RAG方法,使用了不同的检索策略和LLM,并调整了提示词以优化性能。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,大型语言模型在回答健康问题方面的准确性高于传统搜索引擎,正确率约为80%。RAG方法能够显著提升小型LLM的性能,准确率提升高达30%。这表明RAG是一种有效的提升LLM在特定领域知识问答能力的方法。

🎯 应用场景

该研究成果可应用于开发更智能的健康信息检索系统,帮助用户快速准确地获取所需的健康知识。通过结合搜索引擎和大型语言模型的优势,可以构建更可靠的健康咨询平台,辅助医疗决策,并提高公众的健康素养。未来的研究可以进一步探索如何利用RAG方法处理更复杂的健康问题,并评估其在不同语言和文化背景下的适用性。

📄 摘要(原文)

Search engines (SEs) have traditionally been primary tools for information seeking, but the new Large Language Models (LLMs) are emerging as powerful alternatives, particularly for question-answering tasks. This study compares the performance of four popular SEs, seven LLMs, and retrieval-augmented (RAG) variants in answering 150 health-related questions from the TREC Health Misinformation (HM) Track. Results reveal SEs correctly answer between 50 and 70% of questions, often hindered by many retrieval results not responding to the health question. LLMs deliver higher accuracy, correctly answering about 80% of questions, though their performance is sensitive to input prompts. RAG methods significantly enhance smaller LLMs' effectiveness, improving accuracy by up to 30% by integrating retrieval evidence.