SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy

📄 arXiv: 2407.03004v2 📥 PDF

作者: Meghal Dani, Muthu Jeyanthi Prakash, Zeynep Akata, Stefanie Liebe

分类: cs.CL, cs.AI

发布日期: 2024-07-03 (更新: 2025-04-23)


💡 一句话要点

SemioLLM:评估大型语言模型在癫痫诊断中从非结构化临床叙述进行推理的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 癫痫诊断 非结构化数据 临床叙述 推理评估

📋 核心要点

  1. 现有临床知识评估主要依赖结构化数据,忽略了真实场景下非结构化临床叙述的解读与推理难题。
  2. SemioLLM框架利用自由文本癫痫发作描述,评估LLM在癫痫诊断任务中的性能,并探索提示工程和思维链推理的有效性。
  3. 实验表明,多数LLM能较准确预测癫痫发作起始区域,但存在幻觉知识和引用不准确问题,需提升可解释性。

📝 摘要(中文)

大型语言模型(LLMs)已被证明能够编码临床知识。然而,许多评估依赖于结构化的问答基准,忽略了在真实环境中解释和推理非结构化临床叙述的关键挑战。本文提出了SemioLLM,一个评估框架,使用自由文本临床描述,对6个最先进的模型(GPT-3.5、GPT-4、Mixtral-8x7B、Qwen-72B、LlaMa2、LlaMa3)在癫痫的核心诊断任务上进行基准测试。利用包含1269个癫痫发作描述的数据库,结果表明大多数LLM能够准确且自信地生成大脑中癫痫发作起始区域的概率预测。经过提示工程后,大多数模型接近临床医生水平的性能,其中专家指导的思维链推理带来了最一致的改进。临床情境模拟、叙述长度和语言环境进一步强烈地调节了性能(分别导致13.7%、32.7%和14.2%的性能变化)。然而,对推理输出的专家分析表明,正确的预测可能基于幻觉知识和不足的来源引用准确性,突出了提高LLM在临床应用中可解释性的必要性。总的来说,SemioLLM提供了一个可扩展的、领域可适应的框架,用于评估LLM在非结构化口头描述编码诊断信息的临床学科中的应用。通过识别最先进模型的优势和局限性,本文的工作支持开发临床上稳健且全球适用的医疗保健人工智能系统。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLMs)在处理非结构化临床叙述,并进行癫痫诊断推理方面的能力。现有方法主要依赖结构化数据,忽略了真实临床场景中自由文本描述的复杂性和挑战,导致模型在实际应用中表现受限。

核心思路:论文的核心思路是构建一个专门针对非结构化临床叙述的评估框架SemioLLM,通过该框架,可以系统地评估LLMs在癫痫诊断任务中的表现。通过分析模型的预测准确性、推理过程和知识来源,揭示LLMs在临床应用中的优势和局限性,并为改进模型提供指导。

技术框架:SemioLLM框架主要包含以下几个阶段:1) 数据收集:构建包含1269个癫痫发作描述的数据库。2) 模型选择:选择6个最先进的LLMs(GPT-3.5、GPT-4、Mixtral-8x7B、Qwen-72B、LlaMa2、LlaMa3)进行评估。3) 提示工程:设计不同的提示策略,包括专家指导的思维链推理,以提高模型性能。4) 性能评估:评估模型预测癫痫发作起始区域的准确性和置信度。5) 结果分析:分析模型的推理过程,识别幻觉知识和引用不准确等问题。

关键创新:该论文的关键创新在于提出了SemioLLM评估框架,该框架专门针对非结构化临床叙述,能够更全面地评估LLMs在临床诊断任务中的能力。与现有方法相比,SemioLLM更贴近真实临床场景,能够更准确地反映LLMs在实际应用中的表现。此外,论文还深入分析了LLMs的推理过程,揭示了模型存在的潜在问题,为改进模型提供了有价值的参考。

关键设计:论文的关键设计包括:1) 使用真实临床数据构建评估数据集。2) 采用多种提示策略,包括专家指导的思维链推理。3) 评估指标包括预测准确性、置信度和推理过程的可解释性。4) 考虑了临床情境模拟、叙述长度和语言环境等因素对模型性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,经过提示工程后,大多数LLM在预测癫痫发作起始区域方面接近临床医生水平。专家指导的思维链推理带来了最一致的改进。临床情境模拟、叙述长度和语言环境对模型性能有显著影响,分别导致13.7%、32.7%和14.2%的性能变化。但同时也发现模型存在幻觉知识和引用不准确等问题。

🎯 应用场景

该研究成果可应用于开发临床辅助诊断系统,帮助医生更准确、高效地诊断癫痫等疾病。通过提升LLM在处理非结构化临床数据方面的能力,可以扩展其在医疗健康领域的应用范围,例如病历分析、药物研发和个性化治疗方案制定等,具有重要的临床价值和潜在的社会效益。

📄 摘要(原文)

Large Language Models (LLMs) have been shown to encode clinical knowledge. Many evaluations, however, rely on structured question-answer benchmarks, overlooking critical challenges of interpreting and reasoning about unstructured clinical narratives in real-world settings. Using free-text clinical descriptions, we present SemioLLM, an evaluation framework that benchmarks 6 state-of-the-art models (GPT-3.5, GPT-4, Mixtral-8x7B, Qwen-72B, LlaMa2, LlaMa3) on a core diagnostic task in epilepsy. Leveraging a database of 1,269 seizure descriptions, we show that most LLMs are able to accurately and confidently generate probabilistic predictions of seizure onset zones in the brain. Most models approach clinician-level performance after prompt engineering, with expert-guided chain-of-thought reasoning leading to the most consistent improvements. Performance was further strongly modulated by clinical in-context impersonation, narrative length and language context (13.7%, 32.7% and 14.2% performance variation, respectively). However, expert analysis of reasoning outputs revealed that correct prediction can be based on hallucinated knowledge and deficient source citation accuracy, underscoring the need to improve interpretability of LLMs in clinical use. Overall, SemioLLM provides a scalable, domain-adaptable framework for evaluating LLMs in clinical disciplines where unstructured verbal descriptions encode diagnostic information. By identifying both the strengths and limitations of state-of-the-art models, our work supports the development of clinically robust and globally applicable AI systems for healthcare.