MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models

📄 arXiv: 2502.14302v1 📥 PDF

作者: Shrey Pandit, Jiawei Xu, Junyuan Hong, Zhangyang Wang, Tianlong Chen, Kaidi Xu, Ying Ding

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-02-20

备注: Code and dataset are available at https://medhallu.github.io/


💡 一句话要点

MedHallu:用于检测大型语言模型医学幻觉的综合基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学幻觉检测 大型语言模型 基准数据集 PubMedQA 领域知识 不确定性建模 医疗人工智能

📋 核心要点

  1. 现有医学问答LLM存在幻觉问题,生成看似合理但错误的答案,对患者安全构成潜在风险。
  2. MedHallu基准通过系统性生成幻觉答案,提供高质量的医学问答对,用于评估LLM的幻觉检测能力。
  3. 实验表明,即使是先进的LLM在MedHallu上表现不佳,结合领域知识和“不确定”选项可显著提升性能。

📝 摘要(中文)

大型语言模型(LLM)的进步及其在医学问答中日益增长的应用,需要对其可靠性进行严格评估。一个关键的挑战在于幻觉,即模型生成看似合理但实际上不正确的输出。在医学领域,这会对患者安全和临床决策构成严重风险。为了解决这个问题,我们推出了MedHallu,这是第一个专门为医学幻觉检测设计的基准。MedHallu包含10,000个高质量的问答对,这些问答对来自PubMedQA,并通过受控的流程系统地生成幻觉答案。我们的实验表明,包括GPT-4o、Llama-3.1和医学微调的UltraMedical在内的最先进的LLM,在这个二元幻觉检测任务中表现不佳,最好的模型在检测“困难”类别幻觉时的F1得分仅为0.625。通过双向蕴含聚类,我们表明更难检测的幻觉在语义上更接近于真实答案。通过实验,我们还表明,结合领域特定知识并引入“不确定”类别作为答案类别之一,相对于基线,可以将精度和F1得分提高高达38%。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在医学问答中产生幻觉的问题。现有的LLM虽然在通用领域表现出色,但在医学领域容易生成看似合理但实际上错误的答案,这对于临床决策和患者安全构成严重威胁。现有的评估方法缺乏专门针对医学领域的幻觉检测基准,难以有效评估和改进LLM的可靠性。

核心思路:论文的核心思路是构建一个专门用于医学幻觉检测的基准数据集MedHallu,并利用该数据集评估现有LLM的幻觉检测能力。通过系统性地生成不同类型的幻觉答案,并结合双向蕴含聚类分析,深入了解LLM产生幻觉的模式和原因。此外,论文还探索了通过引入领域知识和“不确定”选项来提高LLM幻觉检测性能的方法。

技术框架:MedHallu基准的构建流程主要包括以下几个阶段:1) 数据收集:从PubMedQA数据集中收集高质量的医学问答对。2) 幻觉生成:通过受控的流程系统性地生成不同类型的幻觉答案,包括事实错误、逻辑矛盾等。3) 数据标注:对生成的问答对进行标注,区分真实答案和幻觉答案。4) 模型评估:使用MedHallu基准评估现有LLM的幻觉检测能力,并分析其性能瓶颈。5) 性能提升:探索通过引入领域知识和“不确定”选项来提高LLM幻觉检测性能的方法。

关键创新:论文的主要创新点在于:1) 提出了MedHallu,这是第一个专门用于医学幻觉检测的基准数据集。2) 设计了一种系统性的幻觉生成流程,可以生成不同类型的医学幻觉答案。3) 利用双向蕴含聚类分析,深入了解LLM产生幻觉的模式和原因。4) 探索了通过引入领域知识和“不确定”选项来提高LLM幻觉检测性能的方法。

关键设计:在幻觉生成方面,论文采用了多种策略,包括随机替换、语义相似替换、逻辑推理错误等,以生成不同类型的幻觉答案。在模型评估方面,论文使用了F1 score等指标来衡量LLM的幻觉检测性能。在性能提升方面,论文通过将领域知识融入LLM的训练过程,并引入“不确定”选项作为答案类别之一,来提高LLM的幻觉检测精度和召回率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是GPT-4o、Llama-3.1和UltraMedical等先进的LLM在MedHallu基准上表现不佳,在检测“困难”类别幻觉时的F1得分仅为0.625。通过引入领域知识和“不确定”选项,可以将精度和F1得分提高高达38%。这些结果表明,医学幻觉检测仍然是一个具有挑战性的问题,需要进一步的研究和改进。

🎯 应用场景

MedHallu基准的潜在应用领域包括:评估和改进医学问答系统的可靠性,提高临床决策支持系统的准确性,以及开发更安全的医疗人工智能应用。该研究的实际价值在于降低LLM在医学领域产生幻觉的风险,从而保障患者安全和提高医疗质量。未来,MedHallu可以作为医学LLM开发和评估的重要工具,促进医疗人工智能的健康发展。

📄 摘要(原文)

Advancements in Large Language Models (LLMs) and their increasing use in medical question-answering necessitate rigorous evaluation of their reliability. A critical challenge lies in hallucination, where models generate plausible yet factually incorrect outputs. In the medical domain, this poses serious risks to patient safety and clinical decision-making. To address this, we introduce MedHallu, the first benchmark specifically designed for medical hallucination detection. MedHallu comprises 10,000 high-quality question-answer pairs derived from PubMedQA, with hallucinated answers systematically generated through a controlled pipeline. Our experiments show that state-of-the-art LLMs, including GPT-4o, Llama-3.1, and the medically fine-tuned UltraMedical, struggle with this binary hallucination detection task, with the best model achieving an F1 score as low as 0.625 for detecting "hard" category hallucinations. Using bidirectional entailment clustering, we show that harder-to-detect hallucinations are semantically closer to ground truth. Through experiments, we also show incorporating domain-specific knowledge and introducing a "not sure" category as one of the answer categories improves the precision and F1 scores by up to 38% relative to baselines.