Hallucinations and Key Information Extraction in Medical Texts: A Comprehensive Assessment of Open-Source Large Language Models

📄 arXiv: 2504.19061v3 📥 PDF

作者: Anindya Bijoy Das, Shibbir Ahmed, Shahnewaz Karim Sakib

分类: cs.CL, cs.AI, cs.HC

发布日期: 2025-04-27 (更新: 2025-08-20)


💡 一句话要点

评估开源大语言模型在医疗文本关键信息抽取和幻觉问题上的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 临床文本总结 关键信息抽取 幻觉检测 医疗信息处理

📋 核心要点

  1. 临床文本总结任务面临信息提取不准确和模型产生幻觉的挑战,影响患者护理和治疗。
  2. 论文评估开源LLM在提取出院报告关键信息方面的能力,并分析模型生成摘要中的幻觉类型。
  3. 实验结果表明,LLM在提取入院原因和住院事件方面表现良好,但在识别后续建议方面存在不足。

📝 摘要(中文)

临床总结在医疗保健中至关重要,它将复杂的医疗数据提炼成易于理解的信息,从而提高患者的理解和护理管理水平。大型语言模型(LLM)凭借其先进的自然语言理解能力,在自动化和提高此类总结的准确性方面显示出巨大的潜力。这些模型尤其适用于总结医疗/临床文本,在这些文本中,精确和简洁的信息传递至关重要。本文研究了开源LLM在从出院报告中提取关键事件(包括入院原因、住院期间的主要事件和关键的后续行动)方面的有效性。此外,我们还评估了这些模型生成的摘要中各种类型幻觉的普遍程度。检测幻觉至关重要,因为它直接影响信息的可靠性,可能影响患者的护理和治疗结果。我们进行了全面的模拟,以严格评估这些模型的性能,进一步探究临床总结中提取内容的准确性和保真度。我们的结果表明,虽然LLM(例如,Qwen2.5和DeepSeek-v2)在捕捉入院原因和住院事件方面表现相当出色,但在识别后续建议方面通常不太一致,这突显了利用LLM进行全面总结方面面临的更广泛的挑战。

🔬 方法详解

问题定义:论文旨在解决临床文本总结中,现有方法无法准确提取关键信息(如入院原因、住院事件和后续建议),以及大型语言模型可能产生幻觉的问题。现有方法的痛点在于信息提取的准确性和可靠性不足,可能导致错误的临床决策。

核心思路:论文的核心思路是系统性地评估开源大型语言模型在临床文本总结任务中的表现,重点关注关键信息抽取能力和幻觉现象。通过对比不同模型的表现,揭示其优势和不足,为未来模型改进提供指导。

技术框架:论文采用实验模拟的方法,使用出院报告作为输入,利用开源LLM生成摘要,然后人工评估摘要的质量,包括关键信息提取的准确性和幻觉的类型和程度。评估指标包括信息提取的精确率、召回率和F1值,以及幻觉的发生频率。

关键创新:论文的创新点在于对开源LLM在临床文本总结任务中的关键信息抽取和幻觉问题进行了全面的评估。不同于以往的研究,本文不仅关注模型的整体性能,还深入分析了不同类型关键信息的提取效果和不同类型的幻觉。

关键设计:论文的关键设计包括选择合适的开源LLM(如Qwen2.5和DeepSeek-v2),构建包含出院报告的数据集,设计评估指标(如精确率、召回率、F1值和幻觉发生频率),以及进行人工评估。具体的技术细节包括如何定义和识别不同类型的幻觉,以及如何量化关键信息提取的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Qwen2.5和DeepSeek-v2等LLM在捕捉入院原因和住院事件方面表现出色,但在识别后续建议方面表现不一致。该研究揭示了LLM在临床文本总结中存在的幻觉问题,并量化了不同类型幻觉的发生频率,为后续研究提供了重要参考。

🎯 应用场景

该研究成果可应用于医疗信息系统,辅助医生快速准确地了解患者病情,提高临床决策效率。通过改进LLM在医疗文本总结中的表现,可以减少人工总结的工作量,降低医疗成本,并为患者提供更优质的医疗服务。未来,该技术有望应用于智能问诊、电子病历管理等领域。

📄 摘要(原文)

Clinical summarization is crucial in healthcare as it distills complex medical data into digestible information, enhancing patient understanding and care management. Large language models (LLMs) have shown significant potential in automating and improving the accuracy of such summarizations due to their advanced natural language understanding capabilities. These models are particularly applicable in the context of summarizing medical/clinical texts, where precise and concise information transfer is essential. In this paper, we investigate the effectiveness of open-source LLMs in extracting key events from discharge reports, including admission reasons, major in-hospital events, and critical follow-up actions. In addition, we also assess the prevalence of various types of hallucinations in the summaries produced by these models. Detecting hallucinations is vital as it directly influences the reliability of the information, potentially affecting patient care and treatment outcomes. We conduct comprehensive simulations to rigorously evaluate the performance of these models, further probing the accuracy and fidelity of the extracted content in clinical summarization. Our results reveal that while the LLMs (e.g., Qwen2.5 and DeepSeek-v2) perform quite well in capturing admission reasons and hospitalization events, they are generally less consistent when it comes to identifying follow-up recommendations, highlighting broader challenges in leveraging LLMs for comprehensive summarization.