Systematic Evaluation of Large Language Models for Post-Discharge Clinical Action Extraction

📄 arXiv: 2605.06191v1 📥 PDF

作者: Shivali Dalmia, Ananya Mantravadi, Prasanna Desikan

分类: cs.AI

发布日期: 2026-05-07


💡 一句话要点

提出两阶段提示框架,系统评估大语言模型在出院临床行动提取任务中的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 临床自然语言处理 大语言模型 信息提取 医疗安全 提示工程 临床推理

📋 核心要点

  1. 临床出院小结多为叙述性文本,现有模型难以从中精准提取细粒度的行动任务,且缺乏对临床推理过程的有效建模。
  2. 提出一种两阶段提取框架,通过分步提示策略(Staged Prompting)将复杂文档分解为明确的可执行临床任务,以提升提取精度。
  3. 实验表明LLMs在二元行动检测上可媲美监督模型,但在多标签分类任务中仍存在局限,且模型推理与标注规范间存在显著错位。

📝 摘要(中文)

本文评估了零样本(zero-shot)和少样本(few-shot)大语言模型(LLMs)在安全关键型临床行动提取任务中的表现,重点关注护理过渡与出院后患者安全。为应对临床文档的复杂性,作者提出了一种两阶段提取框架,通过分步提示策略将叙述性出院小结分解为细粒度的临床任务。研究贡献包括:对生成式LLMs进行系统性评估,对比通用LLMs与特定任务监督式BERT模型,并分析了不同行动类别间的标注不一致性。结果显示,LLMs在二元行动检测上表现优异,但在细粒度多标签分类上仍落后于监督模型。定性分析指出,模型性能瓶颈源于临床推理能力的缺失及模型逻辑与标注规范的错位。研究强调,未来临床NLP需引入带有推理过程的标注数据集,以区分临床推理失败与标注规则冲突。

🔬 方法详解

问题定义:临床出院小结通常以非结构化叙述形式存在,包含大量冗余信息。现有方法难以从这些长文本中准确识别出需要后续执行的临床行动,且监督学习模型往往受限于特定任务的微调,难以泛化至复杂临床场景。

核心思路:引入两阶段提取框架,通过将复杂的提取任务拆解为逻辑递进的子任务,利用LLMs的上下文理解能力,将非结构化文本转化为结构化的临床行动列表,从而降低模型处理长文本的认知负荷。

技术框架:该框架包含两个阶段:第一阶段是“分解与识别”,模型首先识别出文档中具有行动意义的片段;第二阶段是“分类与结构化”,模型针对识别出的片段进行细粒度的多标签分类,并将其映射为预定义的临床行动类别。

关键创新:创新性地提出了分步提示策略,不仅关注提取结果,还强调了临床推理的逻辑链条。此外,通过对比分析揭示了现有标注数据集缺乏“推理依据”的问题,为临床NLP的评估范式提供了新视角。

关键设计:采用零样本与少样本提示(Few-shot Prompting)技术,在不进行参数微调的情况下,通过精心设计的Prompt引导模型进行临床推理。实验中严格控制数据隐私,对比了通用LLMs(如GPT系列)与特定任务监督式BERT基线模型。

📊 实验亮点

实验结果显示,LLMs在二元行动性检测任务中表现出色,性能达到甚至超过了监督式BERT模型。但在细粒度多标签分类任务中,监督模型仍保持明显优势。定性分析发现,模型表现不佳的主因在于缺乏临床推理能力,以及模型输出逻辑与数据集标注规范之间的不匹配,而非单纯的语言理解能力不足。

🎯 应用场景

该研究可直接应用于医疗信息系统,自动从出院小结中提取随访、用药调整及检查建议等关键任务,显著降低医护人员手动整理文档的负担,减少因遗漏出院后医嘱而导致的医疗差错,提升患者护理过渡的安全性与连续性。

📄 摘要(原文)

The work in this paper evaluates zero-shot and few-shot large language models (LLMs) for safety-critical clinical action extraction using the CLIP discharge-note dataset, with particular emphasis on transitions of care and post-discharge patient safety. To manage the complexity of clinical documentation, we introduce a two-stage extraction framework that decomposes discharge notes, that are written in narrative form, into fine-grained, explicitly actionable clinical tasks through a staged prompting strategy. Our contributions include a systematic assessment of generative LLMs for clinical action extraction, a detailed comparison between general-purpose LLMs and task-specific supervised BERT-based models, and an analysis of annotation inconsistencies across different action categories. We show that contemporary LLMs achieve performance comparable to or exceeding supervised models on binary actionability detection, while supervised baselines retain a meaningful advantage on fine-grained multi-label category classification, despite the absence of task-specific fine-tuning and under strict data-privacy constraints. Qualitative error analysis reveals that many failures stem from misalignment between model reasoning and dataset annotation conventions, particularly in cases involving implicit clinical actions and rigid structural labeling rules. These results indicate that reported performance reflects model limitations due to lack of clinical reasoning, that is not captured by plain annotations. Labels without rationales make it impossible to distinguish clinical reasoning failures from annotation convention mismatches. Advancing clinical NLP requires reasoning-annotated datasets that document why specific spans are actionable, not merely which spans were labeled, enabling proper evaluation of model clinical understanding.